高 等 院 校 信息 管理 与 信息 系统 专业 系列 教材 


数据 仓库 与 数据 挖 据 教 程 
(第 2 版 ) 


陈 文 伟 编著 


清华 大 学 出 版 社 


普通 高 等 教育 “十 一 五 ”国家 级 规划 教材 
高 等 院 校 信息 管理 与 信息 系统 专业 系列 教材 


数据 仓库 与 数据 控油 教 江 
第 2 版 ) 


清华 大 学 出 版 社 
北 京 


内 容 简 介 
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网 络 ,遗传 算法 ,公式 发 现 , 知 识 挖掘 ,文本 挖掘 与 Web 挖掘 。 

本 书 从 数据 仓库 的 兴起 来 说 明 决 策 支 持 的 特点 ,从 数据 挖掘 的 理论 基础 来 说 明 数 据 挖掘 的 方法 ,并 通 
过 实例 来 详细 讲解 。 希 望 读 者 在 学 习 之 后 ,亲自 在 计算 机 上 去 实践 ,这 样 才能 更 有 效 地 掌握 数据 挖掘 的 
方法 。 
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过 9 让 二 
委 2 版 部 言 


数据 仓库 (Data Warehouse,DW) 和 数据 挖掘 (Data Mining,DM) 是 决策 支持 的 两 项 重 
要 技术 。 在 数据 仓库 中 利用 多 维 数据 分 析 来 发 现 问题 ,并 找 出 产生 的 原因 ,能 从 大 量 历史 数 
据 中 预测 未 来 ;利用 数据 挖掘 方法 能 从 大 量 数据 中 获取 知识 。 两 项 技术 的 共同 特点 是 都 需 
要 利用 大 量 的 数据 资源 。 

数据 仓库 和 数据 挖掘 是 在 20 世纪 90 年 代 中 期 兴起 的 ,经 过 十 多 年 的 发 展 ,在 技术 和 应 
用 两 个 方面 都 得 到 了 很 大 的 提高 。 为 了 提高 数据 仓库 的 决策 支持 效果 ,近年 来 开展 了 对 综 
合 数 据 的 数据 立方 体 的 压缩 技术 研究 ,以 及 对 多 维 数据 分 析 的 MDX 语言 的 推广 。 本 书 第 2 
版 增加 了 这 两 项 内 容 。 为 了 强化 数据 挖掘 中 神经 网 络 与 遗传 算法 两 项 实用 技术 ,在 第 2 版 
中 把 它们 独立 列 为 两 章 。 在 神经 网 络 中 , 按 从 易 到 难 的 顺序 将 内 容重 新 安排 了 一 下 ,并 增加 
了 径 向 基 范 数 网 络 RBF 的 内 容 。 在 遗传 算法 中 增加 了 进化 计算 的 内 容 , 以 便 扩大 读者 的 
视野 。 

本 书 仍 保留 了 按 数 据 仓 库 的 形成 过 程 来 讲述 其 内 容 的 方式 , 即 从 数据 库 到 数据 仓库 以 
及 对 比 ,从 联机 事务 处 理 OLTP 到 联机 分 析 处 理 OLAP 以 及 对 比 , 用 它们 的 对 比 来 突出 数 
据 仓库 决策 支持 的 作用 。 按 形成 过 程 来 讲述 , 既 有 利于 掌握 它们 的 连贯 性 ,又 有 利于 掌握 数 
据 仓 库 的 新 特点 。 

本 书 保留 了 依照 数据 挖掘 的 理论 基础 来 讲述 数据 挖掘 的 方法 :大 家 熟悉 的 决策 树 方法 
实质 上 是 利用 信息 论 中 计算 信息 量 的 公式 来 选择 属性 构造 决策 树 的 结 点 ;影响 较 大 的 粗糙 
集 方法 是 典型 的 利用 集合 的 覆盖 原理 ;关联 规则 挖掘 方法 是 对 相关 事务 (项 ) 的 子 集 占 整个 
集合 的 比例 ,大 于 阔 值 时 建立 关联 规则 的 ;在 集合 论 方法 中 增加 了 影响 最 大 的 K- 均 值 聚 类 
方法 。 读 者 在 懂得 数据 挖掘 的 方法 的 理论 基础 后 ,能 够 更 好 地 掌握 和 使 用 这 些 方法 。 

本 书 第 12 章 由 原来 的 第 12 章 的 “数据 仓库 与 数据 挖掘 的 发 展 ” 变 为 “知识 挖掘 ”, 这 一 
章 是 全 新 的 内 容 。 第 13 章 做 了 部 分 修改 ,增加 了 “Web 日 志 分 析 与 实例 ”一 节 。 

作者 从 事 数 据 仓 库 与 数据 挖掘 研究 工作 多 年 ,在 本 书 第 12 章 中 介绍 了 作者 完成 的 项 
目 一 一 “软件 进化 规律 的 知识 挖掘 ,相信 能 对 本 科 生 有 启发 作用 。 掌 握 这 些 软 件 进化 规律 ， 
一 来 能 够 帮助 学 员 提 高 软件 使 用 能 力 ; 二 来 能 够 引起 他 们 的 兴趣 ,再 进一步 去 挖掘 软件 进化 
规律 ,促进 软件 进化 。 本 书 中 也 介绍 了 作者 领导 的 团队 完成 的 项 目 :IBLE 决策 规则 树 方 
法 、FDD 公式 发 现 系 统 、 遗 传 分 类 学 习 系 统 GCLS 变换 规则 的 知识 挖掘 等 。 这 些 内 容 并 不 
要 求 本 科 生 掌握 ,关键 在 于 启发 他 们 如 何 去 创 新 。 这 些 内 容 更 适合 研究 生 学 习 和 相关 行业 
的 工作 人 员 参 考 。 

建议 在 本 科教 学 中 ,对 信息 论 原理 、 集 合 论 方法 .神经 网 络 和 遗传 算法 ,只 讲 公式 和 应 
用 ,概略 地 说 明 原 理 的 深层 内 容 和 公式 的 推导 。 这 些 知 识 的 详细 内 容 适 合 于 研究 生 教学 。 

王 珊 教授 曾 说 过 :我 觉得 数据 仓库 或 者 数据 挖掘 ,有 时 候 控 掘 出 来 的 东西 并 不 是 很 有 用 
的 ,可 能 要 经 过 很 长 时 间 ,也 许 在 某 些 情况 下 得 到 一 个 非常 好 的 结果 ,能 够 给 领导 者 一 个 启 

。 。 


示 。 但 是 不 会 像 宣传 的 那样 ,我 们 今天 建立 了 数据 仓库 系统 ,明天 就 能 够 解决 商业 竞争 中 的 
很 多 问题 ,就 能 取得 很 大 的 效益 。 而 且 , 领 导 者 的 素质 也 是 一 个 重要 因素 。 领 导 者 能 不 能 发 
现 这 些 问题 ,技术 人 员 给 他 的 新 提示 他 能 不 能 接受 ,数据 挖掘 对 他 是 否 有 效 , 等 等 。 这 些 问 
题 都 影响 了 数据 仓库 和 数据 挖掘 的 效果 。 

这 段 话说 明了 一 个 问题 ,数据 仓库 和 数据 挖掘 的 应 用 比 技术 有 时 显得 更 重要 。 作 者 也 
希望 学 员 在 学 习 这 门 课程 时 , 除 学 习 原 理 与 技术 外 ,还 要 加 强 应 用 能 力 的 锻炼 , 即 通过 计算 
机 去 亲自 实现 它 , 体 会 它 的 真正 价值 。 

欢迎 广大 读者 与 作者 进行 交流 ,为 促进 我 国 数据 仓库 和 数据 挖掘 的 发 展 而 共同 努力 。 


陈 文 伟 
2011 年 9 月 于 广州 


区 了 7 Me 
第 1 版 裔 言 


数据 仓库 (data warehouse,DW) 是 利用 数据 资源 提供 决策 支持 。 它 比 利 用 模型 资源 辅 
助 决策 更 有 效 ,而 且 辅 助 决策 的 范围 更 宽 。 由 于 在 现实 中 ,数据 大 量 存在 ,而 且 在 迅速 地 增 
长 ,只 要 将 面向 应 用 (事务 驱动 ) 的 数据 库 重新 组 织 转变 为 面向 决策 分 析 的 数据 仓库 ,就 可 以 
帮助 决策 者 从 不 同 的 视角 ,通过 综合 数据 分 析 掌 握 现 状 ; 通 过 多 维 数据 分 析 发 现 各 种 存在 的 
问题 ;通过 对 数据 层次 的 钻 取 找 出 问题 产生 的 原因 ;通过 历史 数据 预测 未 来 。 由 于 数据 仓库 
辅助 决策 效果 明显 ,数据 仓库 已 经 从 20 世纪 90 年 代 中 期 兴起 ,经 过 几 年 的 发 展 ,迅速 形成 
了 潮流 。 

数据 挖掘 (data mining,DM) 是 从 数据 中 挖掘 出 信息 和 知识 ,是 从 人 工 智 能 的 机 器 学 习 
(machine learning,ML) 中 发 展 起 来 的 。 机 器 学 习 是 让 计算 机 模拟 人 的 学 习 方 法 获取 知识 。 
机 器 学 习 中 的 大 量 学 习 方 法 已 经 引入 到 数据 挖掘 中 。 数 据 挖掘 也 是 20 世纪 90 年 代 中 期 兴 
起 的 。 正 是 由 于 数据 挖掘 具有 获取 知识 的 能 力 , 目 前 各 数据 仓库 均 将 数据 挖掘 作为 数据 仓 
库 的 前 端 分 析 工 具 , 用 于 提高 数据 仓库 的 决策 支持 能 力 。 

数据 仓库 .数据 控 掘 和 联机 分 析 处 理 (on line analytical processing,OLAP) 结 合 起 来 的 
新 决策 支持 系统 是 以 数据 驱动 的 决策 支持 系统 。 而 传统 决策 支持 系统 (decision support 
system，DSS) 是 以 模型 和 知识 驱动 的 决策 支持 系统 ,是 由 模型 库 系统 、 知 识 库 系统 、 数 据 库 
系统 和 人 机 交互 系统 组 成 的 。 新 决策 支持 系统 利用 的 是 数据 资源 ,而 传统 决策 支持 系统 利 
用 的 是 模型 资源 和 知识 资源 ,它们 两 者 辅助 决策 的 方式 和 效果 均 不 相同 。 新 决策 支持 系统 
并 不 能 代替 传统 决策 支持 系统 ,它们 是 相互 补充 的 。 新 决策 支持 系统 与 传统 决策 支持 系统 
结合 起 来 形成 的 综合 决策 支持 系统 将 是 决策 支持 系统 发 展 的 新 方向 。 

数据 仓库 ,数据 挖掘 、 联 机 分 析 处 理 等 结合 起 来 也 称 为 商业 智能 (business intelligence， 
BI) 。 商 业 智能 是 一 种 新 的 智能 技术 ,区 别 于 人 工 智 能 (artificial intelligence,AI) 和 计算 智 
能 (computational intelligence,CI)。 人 工 智能 采用 的 技术 是 符号 推理 ,符号 推理 过 程 形成 
了 概念 的 推理 链 。 计 算 智 能 采用 的 技术 是 计算 推理 ,模拟 人 和 生物 的 模糊 推理 、 神 经 网 络 计 
算 和 遗传 进化 过 程 。 商 业 智能 是 从 数据 仓库 和 数据 挖掘 中 获取 信息 和 知识 ,对 变化 的 商业 
环境 提供 决策 支持 。 商 业 智能 是 目前 企业 界 正 在 大 力 推广 的 知识 管理 (knowledge manage- 
ment, KM) 的 基础 。 

作者 于 1997 年 6 月 30 日 在 (计算 机 世界 》 报 上 发 表 了 一 组 关于 数据 开采 (数据 挖掘 ) 的 
文章 ,最早 向 国内 学 者 介绍 了 数据 挖掘 概念 和 技术 。 作 者 又 于 1998 年 6 月 15 日 在 (计算 机 
世界 》 报 上 发 表 了 一 组 关于 数据 仓库 与 决策 支持 系统 的 文章 ,在 介绍 基于 数据 仓库 的 决策 支 
持 系统 上 ,提出 了 将 基于 数据 仓库 的 决策 支持 系统 和 传统 决策 支持 系统 结合 的 综合 决策 支 
持 系统 ,在 国内 产生 了 一 定 的 影响 。 

本 书 的 特点 是 从 数据 仓库 和 数据 挖掘 的 兴起 与 演变 来 说 明 它 们 的 本 质 ,通过 例子 来 解 
释 它们 的 原理 , 既 系 统 地 介绍 了 数据 仓库 和 数据 挖掘 的 概念 和 技术 ,又 介绍 了 它们 之 间 的 关 

。 了 芽 。 


系 ,以 及 今后 的 发 展 。 

在 数据 仓库 的 章节 中 ,重点 介绍 数据 仓库 原理 、 联 机 分 析 处 理 、 数 据 仓库 设计 与 开发 . 数 
据 仓库 的 决策 支持 应 用 。 在 数据 挖掘 的 章节 中 重点 介绍 信息 论 方法 、 集 合 论 方法 .公式 发 
现 . 神 经 网 络 和 遗传 算法 ,这 些 数据 挖掘 方法 在 现实 中 应 用 较 广 泛 。 由 于 数据 挖掘 的 基础 理 
论 涉及 面 较 宽 ,建议 在 本 科 生 教学 中 对 信息 论 原 理 和 集合 论 方法 只 讲 定义 和 例子 ,对 神经 网 
络 和 遗传 算法 只 讲 公式 和 应 用 ,省 略 原理 的 深层 内 容 和 公式 的 推导 。 这 些 省 略 的 内 容 适 合 
研究 生 教 学 。 

由 于 作者 从 事 数据 仓库 与 数据 挖掘 工作 多 年 ,并 得 到 过 国家 自然 科学 基金 项 目的 资助 。 
在 书 中 还 介绍 了 作者 领导 的 课题 组 完成 的 IBLE 决策 规则 树 方法 `FDD 公式 发 现 系统 .遗传 
分 类 学 习 系 统 GCLS 等 。 本 书 也 包含 了 作者 提出 的 综合 决策 支持 系统 概念 和 可 拓 数 据 挖 
掘 概念 及 理论 ,这些 内 容 适 合 研究 生 学 习 和 参考 。 

欢迎 和 广大 读者 进行 交流 ,共同 为 促进 我 国 数据 仓库 和 数据 挖掘 的 发 展 而 努力 。 

参加 本 书 录入 的 有 毕 季 明 、 雇 建文 . 赵 健 、 徐 怡 峰 、 田 吴 等 同志 ,在 此 表示 感谢 ! 


陈 文 伟 
2006 年 5 月 29 日 于 广州 
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沾 ” 数 沁 仑 库 与 数 启 深 沁 滋 让 
1.1 数据 仓库 的 兴 


1.1.1 从 数据 库 到 数据 仓库 


由 数据 库 发 展 到 数据 仓库 ,主要 特征 有 如 下 几 点 。 

。 数据 太 多 ,信息 贫乏 (Data Rich，Information Poor) 。 随 着 数据 库 技术 的 发 展 , 企 事 
业 单 位 建立 了 大 量 的 数据 库 ,数据 越 来 越 多 ,而 辅助 决策 信息 却 很 贫乏 ,如 何 将 大 量 
的 数据 转化 为 辅助 决策 信息 成 为 了 研究 热点 。 

。 异 构 环境 数据 的 转换 和 共享 。 随 之 各 类 数据 库 产品 的 增加 , 异 构 环境 的 数据 也 逐渐 
增加 ,如 何 实现 这 些 异 构 环 境 数 据 的 转换 和 共享 也 成 为 了 研究 热点 。 

。 利用 数据 进行 事务 处 理 转变 为 利用 数据 支持 决策 。 数 据 库 用 于 事务 处 理 , 若 要 达到 
辅助 决策 的 目的 , 则 需要 更 多 的 数据 。 例 如 ,利用 历史 数据 的 分 析 来 进行 预测 ,对 大 
量 数据 的 综合 得 到 宏观 信息 等 ,都 需要 大 量 的 数据 。 

数据 仓库 概念 提出 后 ,在 短 短 几 年 的 时 间 内 就 得 到 了 迅速 的 发 展 。 数 据 仓 库 产品 也 不 

断 出 现 并 陆续 进入 市 场 。 


中 
人 


1. 数据 库 用 于 事务 处 理 


数据 库存 储 大量 的 共享 数据 ,作为 数据 资源 用 于 管理 业务 中 的 事务 处 理 。 它 已 经 成 为 
了 成 熟 的 信息 基础 设施 。 

数据 库 中 存放 的 数据 基本 上 是 保存 当前 的 数据 , 随 着 业务 的 变化 再 随时 更 新 数据 库 中 
的 数据 。 例 如 ,学生 数据 库 , 随 着 新 生 的 入校 ,数据 库 中 要 增加 新 学 员 的 数据 记录 。 随 着 毕 
业 学 生 的 离 校 ,数据 库 中 要 删除 这 些 学 员 的 数据 记录 。 数 据 库 总 是 保存 当前 的 数据 记录 。 

不 同 的 管理 业务 需要 建立 不 同 的 数据 库 。 例 如 ,银行 中 储蓄 业务 要 建立 储蓄 数据 库 , 记 
录 所 有 储蓄 用 户 的 存款 及 使 用 信息 。 信 用 卡 业 务 要 建立 信用 卡 数 据 库 ,记录 所 有 用 户 信用 
卡 的 存款 及 使 用 信息 。 贷 款 业 务 要 建立 贷款 数据 库 , 记 录 所 有 贷款 用 户 的 贷款 及 使 用 信息 。 

数据 库 是 为 满足 事务 处 理 需 求 而 设计 和 建立 的 ,从 而 使 计算 机 在 事务 处 理 上 发 挥 了 极 
大 的 效果 。 但 是 ,数据 库 在 帮助 人 们 进行 决策 分 析 时 就 显得 不 适用 了 。 例 如 ,银行 想 了 解 用 
户 的 经 济 状态 (收入 与 支出 情况 ) 以 及 信誉 情况 (是 否 超 支 , 还 贷 情况 等 ) ,决定 是 否 继续 贷款 
给 他 , 单 靠 一 个 数据 库 是 无 法 完成 这 种 决策 分 析 的 。 必 须 将 储蓄 数据 库 、 信 用 卡 数据 库 、 贷 
款 数据 库 集 中 起 来 ,对 某 一 个 人 进行 全 面 分 析 , 才 能 准确 了 解 他 的 存款 及 收 支 情况 、 信 用 卡 
使 用 情况 以 及 贷款 及 还 贷 情况 。 这 样 ,银行 才能 有 效 地 决定 是 否 给 此 人 继续 贷款 。 

同时 使 用 三 个 数据 库 进 行 操作 并 非 是 一 件 简单 的 事 , 由 于 三 个 管理 业务 各 自 独 立 ,在 建 
立 数据 库 时 对 同一 个 人 可 能 使 用 了 不 同 的 编码 ,对 于 他 的 姓名 可 能 有 的 用 汉字 ,有 的 用 汉语 

a 


拼音 ,有 的 用 英文 。 这 为 使 用 三 个 数据 库 共同 进行 决策 分 析 带 来 了 困难 。 
2. 数据 仓库 用 于 决策 分 析 


随 着 决策 分 析 需 求 的 扩大 ,兴起 了 支持 决策 的 数据 仓库 。 它 是 以 决策 主题 需求 集成 多 
个 数据 库 , 重 新 组 织 数 据 结构 ,统一 规范 编码 ,使 其 有 效 地 完成 各 种 决策 分 析 。 

从 数据 库 到 数据 仓库 的 演变 ,体现 了 以 下 几 点 : 

(1) 数据 库 用 于 事务 处 理 , 数 据 仓 库 用 于 决策 分 析 。 

事务 处 理 功 能 单一 ,数据 库 完 成 事务 处 理 的 增加 、 删 除 、 修 改 、 查 询 等 操作 。 决 策 分 析 要 
求 数据 较 多 。 数 据 仓库 需要 存储 更 多 的 数据 , 它 不 需要 修改 数据 , 它 主要 从 大 量 数据 中 提取 
综合 信息 以 及 利用 历史 数据 的 规律 得 到 预测 信息 。 

(2) 数据 库 保持 事务 处 理 的 当前 状态 ,数据 仓库 既 保存 过 去 的 数据 又 保存 当前 的 数据 。 

数据 库 中 的 数据 随 业 务 的 变化 一 直 在 更 新 ,总 保存 当前 的 数据 ,如 学 生 数 据 库 、 财 务 数 
据 库 等 。 数 据 仓库 中 的 数据 不 随时 间 变 化 而 变化 ,但 它 保 留 大 量 不 同时 间 的 数据 , 即 保留 历 
史 数 据 和 当前 数据 。 

(3) 数据 仓库 的 数据 是 大 量 数据 库 的 集成 。 

数据 仓库 的 数据 不 是 数据 库 的 简单 集成 ,而 是 按 决 策 主 题 ,将 大 量 数据 库 中 的 数据 进行 
重新 组 织 ,统一 编码 进行 集成 。 

如 银行 数据 仓库 数据 是 由 储蓄 数据 库 、 信 用 卡 数据 库 、 贷 款 数据 库 等 多 个 数据 库 按 “用 
户 ” 主 题 进行 重新 组 织 ,编码 和 集成 而 建立 的 。 

可 见 ,数据 仓库 的 数据 量 比 数据 库 的 数据 量 大 得 多 。 

(4) 对 数据 库 的 操作 比较 明确 ,操作 数据 量 少 。 对 数据 仓库 操作 不 明确 ,操作 数据 量 大 。 

一 般 对 数据 库 的 操作 都 是 事先 知道 的 事务 处 理工 作 ,每 次 操作 (增加 、 删 除 修改 ,查询 ) 
涉及 的 数据 量 也 小 ,如 一 个 或 几 个 记录 数据 。 

对 数据 仓库 的 操作 都 是 根据 当时 决策 需求 临时 决定 而 进行 的 。 如 比较 两 个 地 区 某 个 商 
品 销售 的 情况 。 该 操作 所 涉及 的 数据 量 很 大 ,不 是 几 个 记录 数据 ,而 是 两 个 地 区 多 个 商店 的 
某 商品 的 所 有 销售 记录 。 


3. 数据 库 与 数据 仓库 的 对 比 


数据 库 与 数据 仓库 的 对 比如 表 1. 1 所 示 。 
表 1.1 数据 库 (DB) 与 数据 仓库 (DW) 对 比 


数据 库 (DB) 数据 仓库 (DW) 
面向 应 用 面向 主题 
数据 是 详细 的 数据 是 综合 的 和 历史 的 
保持 当前 数据 保存 过 去 和 现在 的 数据 
数据 是 可 更 新 的 数据 不 更 新 
对 数据 操作 是 重复 的 对 数据 的 操作 是 启发 式 的 


数据 库 (DB) 数据 仓库 (DW) 
操作 需求 是 事先 可 知 的 操作 需求 是 临时 决定 的 
一 个 操作 存 取 一 个 记录 一 个 操作 存 取 一 个 集合 
数据 非 宛 余 数据 时 常 宛 余 
操作 比较 频繁 操作 相对 不 频繁 
查询 基本 是 原始 数据 查询 基本 是 经 过 加 工 的 数据 
事务 处 理 需要 的 是 当前 数据 决策 分 析 需 要 过 去 和 现在 的 数据 
很 少 有 复杂 的 计算 有 很 多 复杂 的 计算 
支持 事务 处 理 支持 决策 分 析 


1.1.2 从 OLTP 到 OLAP 


1. 联机 事物 处 理 


联机 事物 处 理 (On Line Transaction Processing,OLTP) 是 在 网 络 环境 下 面向 交易 的 事 
务 处 理 , 利 用 计算 机 网 络 技术 ,以 快速 的 事务 响应 和 频繁 的 数据 修改 为 特征 ,使 用 户 利用 数 
据 库 能 够 快速 地 处 理 具体 的 业务 。 其 基本 特征 是 用 户 的 数据 可 以 立即 传送 到 计算 中 心 进行 
处 理 , 并 在 很 短 的 时 间 内 给 出 处 理 结果 。 这 样 做 的 最 大 优点 是 可 以 实时 地 处 理 用 户 的 输入 
的 数据 ,及 时 地 回答 。 这 样 的 系统 也 称 为 实时 系统 (Real time System)。 

OLTP 主要 用 于 银行 业 、 航 空 、 邮 购 订 单 、 超 级 市 场 和 制造 业 等 的 输入 数据 和 取 回 交易 
数据 。 例 如 ,银行 为 分 布 在 各 地 的 自动 取款 机 (ATM) 完 成 即时 取款 交易 ;机 票 预 定 系统 每 
秒 能 处 理 的 订 票 事务 峰值 可 以 达到 20 000 个 。 

OLTP 是 事务 处 理 从 单机 到 网 络 环境 的 发 展 新 阶段 。OLTP 的 特点 在 于 事务 处 理 量 
大 ,应 用 要 求 多 个 并 行 处 理 , 事 务 处 理 内 容 比 较 简 单 且 重 复 率 高 。 大 量 的 数据 操作 主要 涉及 
的 是 一 些 增加 、 删 除 、 修 改 .查询 等 操作 。 每 次 操作 的 数据 量 不 大 且 多 为 当前 的 数据 。 

OLTP 处 理 的 数据 是 高 度 结构 化 的 ,涉及 的 事务 比较 简单 ,数据 访问 路 径 是 已 知 的 ,至 
少 是 固定 的 。 事 务 处 理应 用 程序 可 以 直接 使 用 具体 的 数据 结构 ,如 表 、 索 引 等 。OLTP 数据 
库存 储 的 数据 量 很 大 ,经 常 每 天 要 处 理 成 千 上 万 的 事务 ,在 处 理 业务 数据 时 是 非常 有 效 的 。 

OLTP 面 对 的 是 事务 处 理 操 作 人 员 和 低层 管理 人 员 。 但 是 ,在 为 高 层 领导 者 提供 决策 
分 析 时 , 则 显得 力不从心 。 


2. 联机 分 析 处 理 


关系 数据 库 之 父 E.F. Codd 在 1993 年 提出 ,联机 事务 处 理 (OLTP) 已 经 不 能 满足 终端 

用 户 对 数据 库 决策 分 析 的 需要 ,决策 分 析 需 要 对 多 个 关系 数据 库 共同 进行 大 量 的 综合 计算 

才能 得 到 结果 。 为 此 ,他 提出 了 多 维 数据 库 和 和 多维 分 析 的 概念 , 即 联 机 分 析 处 理 (On Line 

Analytical Processing,OLAP) 概 念 。 关 系数 据 库 是 二 维 ( 平 面 ) 数 据 ,多 维 数据 库 是 空间 立 
Ci: 


体 数据 。 

近年 来 ,人 们 利用 信息 技术 生产 和 搜集 数据 的 能 力 大 幅度 提高 ,大量 的 数据 库 被 用 于 商 
业 管理 、 政 府 办 公 、 科 学 研究 和 工程 开发 等 ,这 一 势头 仍 将 持续 发 展 下 去 。 于 是 ,一 个 新 的 挑 
战 被 提出 来 : 在 信息 爆炸 的 时 代 , 信 息 过 量 几 乎 成 为 人 人 需要 面 对 的 问题 。 如 何 才能 不 被 
信息 的 汪洋 大 海 所 淹没 ,从 中 及 时 发 现 有 用 的 知识 或 者 规律 ,提高 信息 利用 率 呢 ? 要 想 使 数 
据 真 正成 为 一 个 决策 资源 ,必须 充分 利用 它 为 一 个 组 织 的 业务 决策 和 战略 发 展 服务 才 行 , 否 
则 大 量 的 数据 可 能 成 为 包 裕 ,甚至 成 为 垃圾 。OLAP 是 解决 这 类 问题 的 最 有 力 的 工具 之 一 。 

OLAP 专门 用 于 支持 复杂 的 分 析 操 作 ,侧重 对 分 析 人 员 和 高 层 管理 人 员 的 决策 支持 ， 
可 以 应 分 析 人 员 的 要 求 快 速 .灵活 地 进行 大 数据 量 的 复杂 处 理 , 并 且 以 一 种 直观 易 懂 的 形式 
将 查询 结果 提供 给 决策 制定 人 ,以 便 他 们 准确 掌握 企业 (公司 ) 的 经 营 情况 ,了 解 市 场 需求 ， 
制定 正确 方案 ,增加 效益 。OLAP 软件 以 它 先进 的 分 析 功 能 和 用 多 维 形式 提供 数据 的 能 
力 , 正 作为 一 种 支持 企业 决策 的 解决 方案 而 迅速 崛起 。 

OLAP 的 基本 思想 是 决策 者 从 多 方面 和 多 角度 ,以 多 维 的 形式 来 观察 企业 的 状态 和 了 
解 企 业 的 变化 。 

3. OLTP 与 OLAP 的 对 比 

OLAP 是 以 数据 仓库 为 基础 ,其 最 终 数据 来 源 与 OLTP 一 样 均 来 自 底层 的 数据 库 系 
统 ,但 由 于 二 者 面 对 的 用 户 不 同 ,OLTP 面 对 的 是 操作 人 员 和 低层 管理 人 员 ,OLAP 面 对 的 
是 决策 人 员 和 高 层 管理 人 员 ,因而 数据 的 特点 与 处 理 也 明显 不 同 。 

OLTP 和 OLAP 是 两 类 不 同 的 应 用 ,它们 各 自 的 特点 如 表 1. 2 所 示 。 


表 1.2 OLTP 与 OLAP 对 比 表 


or | on 
数据 库 数 据 数据 仓库 数据 
细节 性 数据 综合 性 数据 
当前 数据 历史 数据 
经 常 更 新 不 更 新 ,但 周期 性 刷新 
一 次 处 理 的 数据 量 小 一 次 处 理 的 数据 量 大 
对 响应 时 间 要 求 高 响应 时 间 合 理 
用 户 数量 大 用 户 数量 相对 较 小 
面向 操作 人 员 ,支持 日 常 操作 面向 决策 人 员 ,支持 决策 需要 
面向 应 用 ,事务 驱动 面向 分 析 , 分 析 驱 动 


1.1.3 数据 字典 与 元 数据 
1. 数据 库 的 数据 字典 


数据 字典 是 数据 库 中 各 类 数据 描述 的 集合 , 它 在 数据 库 设 计 中 具有 很 重要 的 地 位 。 数 
Se 


据 字 典 通常 包括 数据 项 .数据 结构 .数据 流 .数据 存储 和 处 理 过 程 五 个 部 分 ,其 中 数据 项 是 数 
据 的 最 小 组 成 单位 ,若干 个 数据 项 可 以 组 成 一 个 数据 结构 ,数据 字典 通过 对 数据 项 和 数据 结 
构 的 定义 来 描述 数据 流 ,数据 存储 的 逻辑 内 容 。 

(1) 数据 项 

数据 项 是 不 可 再 分 的 数据 单位 。 对 数据 项 的 描述 通常 包括 数据 项 名 、 数 据 项 含义 说 明 、 
数据 类 型 长度 、 取 值 范围 . 取 值 含义 等 。 

(2) 数据 结构 

数据 结构 反映 了 数据 之 间 的 组 合 关系 。 一 个 数据 结构 可 以 由 若干 个 数据 项 组 成 ,也 可 
以 由 若干 个 数据 结构 组 成 。 数 据 结构 的 描述 通常 包括 数据 结构 名 、 含 义 说 明 ,数据 项 等 。 

(3) 数据 流 

数据 流 是 数据 结构 在 系统 内 传输 的 路 径 , 对 数据 流 的 描述 通常 包括 数据 流 名 、 说 明 、 数 
据 流 来 源 、 数 据 流 去 向 平均 流量 等 。 其 中 “数据 流 来 源 ” 用 于 说 明 该 数据 流 来 自 哪个 过 程 。 
“数据 流 去 向 ”用 于 说 明 该 数据 流 将 到 哪个 过 程 去 “平均 流量 ?是 指 单位 时 间 ( 如 每 天 ) 里 的 
传输 次 数 。 

(4) 数据 存储 

数据 存储 是 数据 结构 保存 数据 的 地 方 ,数据 存储 的 描述 通常 包括 数据 存储 名 、 说 明 、 编 
号 ,输入 的 数据 流 、 输 出 的 数据 流 、 数 据 量 、 存 取 频 度 、 存 取 方 式 。 其 中 “ 存 取 频 度 ” 指 每 小 时 
或 每 天 或 每 周 存 取 几 次 、 每 次 存 取 多 少数 据 等 信息 。“ 存 取 方 式 ” 包 括 是 批 处 理 还 是 联机 处 
理 . 是 检索 还 是 更 新 、 是 顺序 检索 还 是 随机 检索 等 。 另外,“ 输入 的 数据 流 " 要 指出 其 来 源 ， 
“输出 的 数据 流 ” 要 指出 其 去 向 。 

(5) 处 理 过 程 

处 理 过 程 一 般 用 判定 表 或 判定 树 来 描述 。 数 据 字典 中 只 需要 描述 处 理 过 程 的 说 明 性 信 
息 , 通 常 包括 处 理 过 程 名 、 说 明 、 输 入、 输出 、 处 理 。 其 中 “处 理 ” 主 要 说 明 该 处 理 过 程 的 功能 
及 人 处理 要 求 。 

可 见 ,数据 字典 是 关于 数据 库 中 数据 的 描述 ,而 不 是 数据 本 身 。 数 据 字 典 是 数据 库 的 元 
数据 。 


2. 数据 仓库 的 元 数据 


元 数据 (metadata) 被 定义 为 关于 数据 的 数据 (data about data)。 元 数据 早期 主要 指 网 
络 资源 的 描述 数据 ,用 于 网 络 信息 资 源 的 组 织 ; 其 后 ,逐步 扩大 到 各 种 以 电子 形式 存在 的 信 
息 资 源 的 描述 数据 。 目 前 ,元 数据 这 一 术语 实际 用 于 各 种 类 型 信息 资源 的 描述 记录 。 

元 数据 在 数据 仓库 中 是 描述 数据 仓库 中 数据 及 其 环境 的 数据 。 数 据 仓 库 远 比 数据 库 复 
杂 。 在 数据 仓库 中 引入 “元 数据 ”的 概念 , 它 不 仅仅 是 数据 仓库 的 字典 ,而 且 还 是 数据 仓库 本 
身 功能 的 说 明 数 据 。 

元 数据 在 数据 仓库 中 不 仅 定义 了 数据 仓库 有 什么 ,还 指明 了 数据 仓库 中 信息 的 内 容 和 
位 置 ,刻画 了 数据 的 抽取 和 转换 规则 的 说 明 ,存储 了 与 数据 仓库 主题 有 关 的 各 种 商业 信息 ， 
而 且 整 个 数据 仓库 的 运行 都 是 基于 元 数据 的 ,如 数据 的 修改 跟踪、 抽取、 装 和 、 综 合 以 及 使 
用 等 。 由 于 元 数据 遍及 数据 仓库 的 所 有 方面 ,因此 它 已 成 为 整个 数据 仓库 的 核心 。 


数据 仓库 的 元 数据 共 包 含有 四 类 元 数据 , 除 对 数据 仓库 中 数据 的 描述 (数据 仓库 字典 ) 
外 ,还 有 以 下 三 类 元 数据 : 

(1) 关于 数据 源 的 元 数据 

数据 仓库 的 数据 源 包含 了 很 多 不 同 数据 库 的 数据 结构 ,以 及 源 数 据 的 字段 长 度 和 数据 
类 型 。 为 数据 仓库 挑选 数据 时 ,必须 将 源 数据 的 记录 拆 分 ,并 将 来 自 不 同 源 数据 的 记录 的 某 
些 部 分 组 合 起 来 。 还 要 解决 编码 和 字段 长 度 不 同 的 问题 。 当 将 这 些 信息 传递 给 最 终 数据 仓 
库 的 时 候 , 必 须 把 这 些 数 据 与 原始 数据 联系 起 来 。 

(2) 关于 抽取 和 转换 的 元 数据 

这 类 元 数据 包含 了 源 数据 系统 的 数据 抽取 方法 、 数 据 抽取 规则 以 及 抽取 频率 等 数据 转 
换 的 所 有 说 明 数 据 。 

(3) 关于 最 终 用 户 使 用 数据 仓库 的 元 数据 

最 终 用 户 使 用 数据 仓库 的 元 数据 是 数据 仓库 的 导航 图 。 它 使 最 终 用 户 可 以 从 数据 仓库 
中 找到 自己 需要 的 信息 。 


1.1.4 数据 仓库 的 定义 与 特点 


数据 仓库 (Data Warehouse) 的 概念 是 由 W. H. Inmon 在 《建立 数据 仓库 (Building the 
Data Warehouse)) 一 书 中 提出 的 。 数 据 仓 库 的 提出 是 以 关系 数据 库 、 并 行 处 理 和 分 布 式 技 
术 为 基础 的 信息 新 技术 。 

从 目前 的 发 展 形势 看 ,数据 仓库 技术 已 紧 跟 Internet 而 上 ,成 为 信息 社会 中 获得 企业 竞 
争 优势 的 又 一 关键 技术 。 


1. 数据 仓库 的 定义 


(1) W. H. Inmon 对 数据 仓库 的 定义 

数据 仓库 是 面向 主题 的 、 集 成 的 稳定 的 不 同时 间 的 数据 集合 ,用 于 支持 经 营 管理 中 决 
策 制定 过 程 。 

(2) SAS 软件 研究 所 的 观点 

数据 仓库 是 一 种 管理 技术 , 旨 在 通过 通畅 .合理 .全面 的 信息 管理 ,达到 有 效 的 决策 
支持 。 

从 数据 仓库 的 定义 可 以 看 出 ,数据 仓库 是 明确 为 决策 支持 服务 的 ,而 数据 库 是 为 事务 处 
理 服 务 的 。 


2. 数据 仓库 的 特点 


从 数据 仓库 的 定义 可 以 看 出 数据 仓库 有 如 下 特点 。 
(1) 数据 仓库 是 面向 主题 的 
主题 是 数据 归 类 的 标准 ,每 一 个 主题 基本 对 应 一 个 宏观 的 分 析 领 域 。 例 如 ,保险 公司 的 
数据 仓库 的 主题 为 客户 政策 .保险 金 . 索 赔 等 。 
基于 应 用 的 数据 库 组 织 则 完全 不 同 , 它 的 数据 只 是 为 处 理 具体 应 用 而 组 织 在 一 起 的 。 
保险 公司 按 应 用 组 织 的 数据 库 是 汽车 保险 .生命 保险 、 健 康 保 险 、 伤 亡 保险 等 。 
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(2) 数据 仓库 是 集成 的 

数据 进入 数据 仓库 之 前 ,必须 经 过 加 工 与 集成 。 对 不 同 的 数据 来 源 进 行 统一 数据 结构 
和 编码 。 统 一 原始 数据 中 的 所 有 矛盾 之 处 ,如 字段 的 同名 异 义 、 异 名 同 义 、 单 位 不 统一 、 字 长 
不 一 致 等 。 总 之 ,将 原始 数据 结构 做 一 个 从 面向 应 用 到 面向 主题 的 大 转变 。 

(3) 数据 仓库 是 稳定 的 

数据 仓库 中 包括 了 大 量 的 历史 数据 。 数 据 经 集成 进入 数据 仓库 后 是 极 少 或 根本 不 更 
新 的 。 

(4) 数据 仓库 是 随时 间 变 化 的 

数据 仓库 内 的 数据 时 限 在 5 一 10 年 , 故 数据 的 键 码 包 含 时 间 项 ,标明 数据 的 历史 时 期 ， 
这 适合 决策 分 析 时 进行 时 间 趋 势 分 析 。 

而 数据 库 只 包含 当前 数据 , 即 存 储 某 一 时 间 的 正确 的 有 效 数据 。 

(5) 数据 仓库 中 的 数据 量 很 大 

通常 的 数据 仓库 的 数据 量 为 10GB 级 ,相当 于 一 般 数据 库 ( 约 100MB) 的 100 倍 , 大 型 数 
据 仓 库 是 1TB(1000GB) 级 数据 量 。 

数据 仓库 中 数据 量 的 比重 是 索引 和 综合 数据 占 2/3, 原 始 数 据 占 1/3。 

(6) 数据 仓库 软 硬 件 要 求 较 高 

Q@ 需要 一 个 巨大 的 硬件 平台 ; 

@ 需要 一 个 并 行 的 数据 库 系 统 。 


1.2 数据 挖掘 的 兴 


1.2.1 从 机 器 学 习 到 数据 挖掘 


数据 挖掘 来 源 于 机 器 学 习 。 学 习 是 人 类 具有 的 智能 行为 ,主要 目的 在 于 获取 知识 。 机 
器 学 习 是 研究 使 计算 机 模拟 或 实现 人 类 的 学 习 行 为 , 即 让 计算 机 通过 算法 自动 获取 知识 。 
机 器 学 习 是 人 工 智能 领域 中 的 重要 研究 方向 。 

20 世纪 60 年 代 开 始 了 机 器 学 习 的 研究 。 比 较 典 型 的 成 果 有 : Rosenblate 的 感知 机 , 它 
是 最 早 用 神经 网 络 进行 模式 识别 的 方法 ;Sammel 的 西洋 跳棋 程序 ,他 用 线性 表达 式 的 启发 
式 方法 ,通过 多 次 人 机 对 弈 ,自动 修改 表达 式 中 的 系数 ,使 程序 逐渐 聪明 ,该 程序 竞 然 取 得 了 
胜 过 作者 和 州 冠军 的 成 绩 。 

20 世纪 80 年 代 , 机 器 学 习 取 得 了 较 大 的 成 果 。Michelski 等 人 的 AQ11 系统 (1980)， 
能 从 大 量 病例 中 归纳 出 大 豆 病 症 的 判断 规则 。AQl1l 是 一 个 很 成 功 的 归纳 学 习 方 法 ; 
Quiulan 的 ID3(1983) 决 策 树 方法 影响 很 大 ,实用 性 很 强 ; Langley 等 人 的 BACON 系统 
(1987) 能 重新 发 现 物理 学 的 大 量规 律 ;Rumelhart 等 人 研制 的 反 向 传播 神经 网 络 BP 模型 
(1985) 为 神经 网 络 的 学 习 开创 了 一 个 新 阶段 。 

这 些 显 著 成 果 的 出 现 ,使 “机 器 学 习 ” 逐 渐 形 成 了 人 工 智 能 的 主要 学 科 方 向 之 一 。1980 
年 在 美国 召开 了 第 一 届 国 际 机 器 学 习 学 会 研讨 会 ;1984 年 (机 器 学 习 》 杂 志 问 世 。 

我 国 在 1987 年 召开 了 第 一 届 全 国 机 器 学 习 研 讨 会 。1989 年 成 立 了 中 国人 工 智 能 学 会 
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机 器 学 习 学 会 。 我 国学 者 洪 家 荣 研 制 的 AE1 系统 (1985) 采 用 了 扩张 矩阵 方法 ;钟鸣 和 本 书 
作者 研制 的 IBLE 方法 (1992) 利 用 信道 容量 建立 决策 规则 树 ,识别 效果 比 ID3 方法 更 高 。 
本 书 作 者 研制 的 FDD 经 验 公 式 发 现 系 统 (1998) ,能 发 现 含 初等 函数 或 复合 函数 的 经 验 公 
式 ,发现 的 公式 比 BACON 系统 发 现 的 公式 范围 更 宽 。 

1989 年 在 美国 召开 了 第 一 届 知 识 发 现 (KDD) 国 际 学 术 会 议 , 从 数据 库 中 发 现 知识 
(Knowledge Discovery in Database,KDD) 形 成 了 新 概念 。KDD 研究 的 问题 有 : 四 定性 知 
识 和 定量 知识 的 发 现 ; @ 知 识 发 现 方法 ; 图 知识 发 现 的 应 用 等 。 

1995 年 在 加 拿 大 召开 了 第 一 届 知 识 发 现 (KDD) 和 数据 挖 气 (DM) 国 际 学 术 会 议 。 由 
于 把 数据 库 中 的 “数据 ”形象 地 比喻 成 矿床 ,因此 “数据 挖掘 (Data Mining,DM)” 一 词 很 快 流 
传 开 来 。 

数据 挖掘 是 知识 发 现 中 的 核心 工作 ,主要 研究 发 现 知识 的 各 种 方法 和 技术 。 而 这 些 方 
法 和 技术 主要 来 自 于 机 器 学 习 。 随 着 数据 挖掘 的 发 展 , 出 现 了 一 些 新 的 数据 挖掘 方法 ,如 大 
型 数据 库 库 中 关联 规则 的 挖掘 ,利用 粗糙 集 进 行 属 性 约 简 和 规则 获取 等 。 

数据 挖掘 兴起 时 主要 是 在 数据 库 中 挖掘 知识 , 随 着 数据 仓库 的 出 现 和 发 展 , 很 快 将 数据 
挖掘 技术 和 方法 用 于 数据 仓库 。 典 型 的 啤酒 与 尿布 的 故事 (这 两 种 商品 同时 出 售 出 现 的 概 
率 很 大 ) 就 是 在 数据 仓库 中 挖掘 出 的 关联 知识 。 


1.2.2 数据 挖掘 含义 


按 人 4 人工 智能 辞典 ?的 定义 : 信息 是 数据 中 所 蕴涵 的 意义 。 知 识 是 人 们 对 客观 世界 的 规 
律 性 认识 。 

数据 库 中 每 个 数据 记录 的 内 含 代表 了 该 记录 的 信息 。 而 数据 挖掘 是 从 数据 库 中 所 有 数 
据 记 录 中 归纳 总 结 出 知识 。 知 识 的 数量 大 大 少 于 数据 记录 量 。 这 些 知 识 代表 了 数据 库 中 数 
据 信 息 的 规律 , 即 用 少量 的 知识 能 够 覆盖 数据 库 中 所 有 的 记录 。 

例如 ,人 口 数 据 库 中 存储 各 国人 口 的 记录 , 它 将 是 一 个 庞大 的 数据 库 。 但 是 ,通过 数据 
挖掘 ,可 以 得 出 形式 化 表示 的 规则 知识 : 

(头发 二 黑色 ) V (眼睛 王 黑色) 一 亚洲 人 

其 中 “V ”表示 “或 " “一 ”表示 “蕴涵 ”, 规 则 知识 表示 为 " 若 ( 条 件 ) 则 (结论 )”, 即 表示 若 头 
发 是 黑色 或 者 眼睛 是 黑色 的 人 , 则 他 是 亚洲 人 。 

该 知识 代表 了 亚洲 人 的 特点 ,也 即 覆 盖 了 所 有 亚洲 人 的 记录 。 

知识 的 获得 是 通过 数据 挖掘 算法 ,如 AQ11 方法 .ID3 方法 等 经 过 计算 得 到 的 。 


1.2.3 数据 挖掘 与 OLAP 的 比较 
1. OLAP 的 多 维 分 析 


OLAP 是 在 多 维 数据 结构 上 进行 数据 分 析 的 。 同 时 对 多 维 数据 进行 分 析 是 复杂 的 。 
一 般 在 多 维 数据 中 取出 (切片 . 切 块 ) 二 维 或 三 维 数据 来 进行 分 析 , 或 对 层次 的 维 进行 钼 取 操 
作 , 向 下 钻 取 获 得 更 详细 的 数据 ,向 上 钻 取 获 得 更 综合 的 数据 。 
OLAP 要 适应 大 量 用 户 同 时 使 用 同一 批 数据 ,适应 于 不 同 地 理 位 置 的 分 散 化 的 决策 。 
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OLAP 的 功能 和 算法 包括 聚合 .分 配 比率. 乘 积 等 描述 性 的 建 模 功能 。 

OLAP 平时 需要 查询 大 量 的 日 常 商 业 活动 信息 ,如 每 周 的 布匹 购买 量 、 每 周 布匹 的 内 
部 库存 以 及 布匹 的 销售 量 等 。OLAP 更 需要 查询 商业 活动 的 变化 情况 ,如 每 周 布匹 购买 量 
的 变化 值 .衣服 生 产量 的 变化 值 .衣服 销售 价格 的 变化 等 。 这 些 变 化 值 对 经 理 们 制定 决策 更 
要 。 

经 理 们 往往 从 查询 出 的 变化 值 中 ,通过 OLAP 追踪 查询 找 出 存在 的 原因 。 例 如 ,经 理 
看 到 利润 小 于 预计 值 的 时 候 , 他 可 能 会 深入 到 各 个 国家 查看 整个 产品 利润 情况 。 这 样 ,他 可 
能 发 现 有 些 国家 的 利润 明显 低 于 其 他 国家 ,于 是 他 自然 就 会 查看 这 些 国家 中 不 同 产品 组 的 
利润 情况 ,总 的 目标 就 是 寻找 一 些 比较 异常 的 数据 来 解释 某 种 现象 。 经 过 一 番 观 察 之 后 ,就 
会 发 现 非 直接 成 本 在 这 些 国家 明显 偏 高 。 进 一 步 对 这 些 非 直接 成 本 进行 分 析 , 可 以 发 现 近 
期 对 于 某 些 产品 的 赋税 明显 增加 ,从 而 明显 影响 了 最 终 的 利润 。 这 种 分 析 查 询 要 求 时 间 响 
应 快 。 

以 上 是 OLAP 的 典型 应 用 ,通过 商业 活动 变化 的 查询 发 现 的 问题 ,经 过 追踪 查询 找 出 
问题 出 现 的 原因 ,达到 辅助 决策 的 作用 。 


lm 


2. 数据 挖掘 


OLAP 是 在 带 层次 的 维度 和 跨 维度 进行 多 维 数据 分 析 的 。 数 据 挖掘 则 不 同 , 它 是 以 变 
量 和 记录 为 基础 进行 分 析 的 。 

数据 挖掘 任务 在 于 聚 类 (如 神经 网 络 聚 类 ) 分 类 (如 决策 树 分 类 ) 、 预 测 等 。 这 些 是 带 有 
探索 性 的 建 模 功 能 。 

数据 挖掘 在 于 寻找 不 平常 的 且 有 用 的 商业 运作 模型 。 考 察 数据 的 不 同类 型 或 者 找 出 变 
量 之 间 的 关系 。 数 据 挖掘 需要 察看 海量 数据 ,主要 是 详细 数据 和 历史 数据 。 为 此 经 常 将 数 
据 仓 库 中 的 数据 拷贝 到 一 个 专门 的 存储 器 上 ,对 数据 的 挖掘 分 析 可 能 要 花 去 大 量 的 时 间 , 即 
不 要 求 快 速 分 析 。 数 据 挖掘 人 员 有 时 并 不 能 精确 地 知道 什么 是 必须 分 析 的 ,有 时 数据 挖掘 
一 无 所 获 。 但 是 ,有 时 通过 数据 挖掘 会 发 现 意外 的 、 无 价 的 信息 “ 金 块 "。 例 如 ,如 果 能 够 确 
定 一 个 高 价值 的 客户 或 可 能 离开 的 客户 特征 ,就 可 以 要 求 公司 采取 措施 保留 这 些 客户 ,这 比 
从 竞争 对 手 那里 重新 争取 曾经 失去 的 客户 所 需 的 费用 少 得 多 。 


1.2.4 数据 挖掘 与 统计 学 
1. 统计 学 的 发 展 过 程 


统计 学 是 一 门 有 悠久 历史 的 学 科 。 统 计 学 开始 于 十 七 世纪 , 它 与 国家 政治 有 紧密 的 关 
系 。 英 国人 W. Petty(1623 一 1682) 的 《政治 算术 ) 一 书 中 第 一 次 用 计量 和 比较 的 方法 ,对 英 
国 与 法 、 意 、 荷 等 国 进行 国力 比较 。J. Graunt(1620 一 1674) 通 过 统计 计算 ,发 现 男女 人 数 占 
人 口 数 的 比例 大 致 相同 .出 生 儿 中 男 婴 比例 稍 高 . 婴 幼儿 的 死亡 率 较 大 等 规律 性 的 现象 。 

17 世纪 ,B. Pascal 等 人 提出 “概率 ”概念 ,用 来 描述 某 一 事件 发 生 的 可 能 性 。18 世纪 ， 
在 观测 天 体 运动 时 会 有 误差 产生 ,虽然 多 次 测量 ,由 于 有 误差 ,得 到 的 总 是 和 真 值 不 同 的 值 。 
高 斯 (Gauss,1777 一 1855) 提 出 误差 值 落 在 (a,5) 区 间 的 概率 等 于 该 区 间 上 正 态 分 布 曲线 下 
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的 面积 , 称 误差 服从 正 态 分 布 (高 斯 分 布 )。 比 利 时 的 凯特 勒 (A. Quetelet,1796 一 1874) 称 
“支配 着 社会 现象 的 法 则 和 方法 是 概率 论 ”。 

近代 统计 学 重视 社会 调查 。 通 过 对 全 部 对 象 ( 总 体 ) 进 行 调查 ,为 制定 计划 和 决策 提供 
依据 ,如 果 对 总 体 的 某 些 分 布 情况 有 一 定 把 握 的 话 , 就 不 必 搞 全 面 调 查 , 可 以 搞 部 分 调查 , 即 
抽样 调查 ,由 部 分 推断 全 部 。 概 率 论 和 数理 统计 理论 起 着 重要 的 作用 。 现 在 ,各 国 在 进行 经 
济 统计 、 国 事 调查 .社会 调查 .收视 率 调查 .民意 测验 时 ,采用 的 几乎 都 是 抽样 调查 。 

现代 统计 学 ,从 线性 到 非 线性 .从 低 维 到 高 维 . 从 显 在 到 潜在 .从 连续 到 离散 等 方面 有 较 
完备 的 理论 和 方法 。 统 计 软 件 包 SPSS、SAS 等 已 经 普及 ,统计 工作 基本 上 利用 计算 机 来 
完成 。 


2. 统计 学 中 应 用 于 数据 挖掘 的 内 容 


(1) 常用 统计 

在 大 量 数据 中 求 最 大 值 . 最 小 值 . 总 和 、 平 均值 等 。 

(2) 相关 分 析 

通过 求 变量 间 的 相关 系数 来 确定 变量 间 的 相关 程度 。 

(3) 回归 分 析 

建立 回归 方程 (线性 或 非 线性 ) 以 表示 变量 间 的 数量 关系 ,再 利用 回归 方程 进行 预测 。 

(4) 假设 检验 

在 总 体 存在 某 些 不 确定 情况 时 ,为 了 推断 总 体 的 某 些 性 质 , 提 出 关于 总 体 的 某 些 假设 ， 
对 此 假设 利用 置信 区 间 来 检验 , 即 任何 落 在 置信 区 间 之 外 的 假设 判断 为 “拒绝 ”, 任 何 落 在 置 
信 区 间 之 内 的 假设 判断 为 “接受 ”。 

(5) 聚 类 分 析 

对 样品 或 变量 进行 聚 类 的 方法 。 有 具体 方法 是 把 每 一 个 样品 看 成 是 m 维 空间 的 一 个 点 ， 
聚 类 是 把 “距离 ” 较 近 的 一 些 点 归 为 同一 类 ,而 将 “距离 ” 较 远 的 点 归 为 不 同 的 类 。 

(6) 判别 分 析 

建立 一 个 或 多 个 判别 函数 ,并 确定 一 个 判别 标准 。 对 未 知 对 象 利用 判别 函数 将 它 划 归 
某 一 个 类 别 。 

(7) 主 成 分 分 析 

主 成 分 分 析 是 把 多 个 变量 化 为 少数 的 几 个 综合 变量 ,而 这 几 个 综合 变量 可 以 反映 原来 
多 个 变量 的 大 部 分 信息 。 

主 成 分 分 析 的 一 种 推广 是 因子 分 析 , 即 用 少数 几 个 因子 (F;) ,去 描述 许多 变量 (Xi ) 之 
间 的 关系 。 变 量 (X;) 是 可 以 观测 的 显 在 变量 ,而 因子 (F;) 是 不 可 观测 的 潜在 变量 。 


3. 统计 学 与 数据 挖掘 的 比较 


统计 学 主要 是 对 数量 数据 (数值 ) 或 连续 值 数据 (如 年 龄 工资 等 ) 进 行 数值 计算 (如 初等 
运算 ) 的 定量 分 析 , 得 到 数量 信息 ,如 常用 统计 量 ( 最 大 值 、 最 小 值 平 均值 ,总 和 等 ), 相 关系 
数 、 回 归 方 程 等 。 
数据 挖掘 主要 对 离散 数据 (如 职称 病症 等 ) 进 行 定 性 分 析 ( 覆 盖 、 归 纳 等 ) ,得 到 规则 知 
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识 。 例 如 ,如 果 某 人 的 眼睛 是 黑 的 或 者 头发 是 黑 的 , 则 可 以 认为 他 是 亚洲 人 。 

在 统计 学 中 有 聚 类 分 析 和 判别 分 析 ,它们 与 数据 挖掘 中 的 聚 类 和 分 类 相似 ,但 是 采用 的 
标准 不 一 样 。 统 计 学 的 聚 类 采用 的 “距离 是 欧式 距离 , 即 两 点 间 的 坐标 (数值 距离 ;而 数据 
挖掘 的 聚 类 采用 的 “距离 ”是 汉 明 距离 , 即 属性 取 值 是 否 相同 ,相同 者 距离 为 “0”, 不 相同 者 距 
离 为 “1”。 

总 之 ,统计 学 与 数据 挖掘 是 有 区 别 的 ,但 是 它们 之 间 是 相互 补充 的 。 不 少数 据 挖掘 的 著 
作 中 均 把 统计 学 的 不 少 方法 引入 到 数据 挖掘 中 ,与 将 机 器 学 习 中 的 不 少 方法 引入 到 数据 挖 
据 中 一 样 ,作为 从 数据 获取 知识 的 一 大 类 方法 。 

虽然 统计 学 的 不 少 方法 可 以 归 和 人 到 数据 挖掘 中 ,但 统计 学 仍然 是 一 门 独立 的 学 科 。 


1.3 数据 仓库 和 数据 挖掘 的 结合 


1.3.1 数据 仓库 和 数据 挖掘 的 区 别 与 联系 
1. 数据 仓库 与 数据 挖掘 的 区 别 


数据 仓库 是 在 数据 库 的 基础 上 发 展 起 来 的 。 它 将 大 量 的 数据 库 的 数据 按 决 策 需求 进行 
重新 组 织 , 以 数据 仓库 的 形式 进行 存储 , 它 将 为 用 户 提供 辅助 决策 的 随机 查询 .综合 信息 以 
及 随时 间 变 化 的 趋势 分 析 信 息 等 。 

数据 仓库 是 一 种 存储 技术 , 它 的 数据 存储 量 是 一 般 数据 库 的 100 倍 , 它 包含 大 量 的 历史 
数据 、 当 前 的 详细 数据 以 及 综合 数据 。 它 能 适应 于 不 同 用 户 对 不 同 决策 需要 提供 所 需 的 数 
据 和 信息 。 

数据 挖掘 是 从 人 工 智能 机 器 学 习 中 发 展 起 来 的 。 它 研究 各 种 方法 和 技术 ,从 大 量 的 数 
据 中 挖掘 出 有 用 的 信息 和 知识 。 最 常用 的 数据 挖掘 方法 是 统计 分 析 方法 、 神 经 网 络 方法 和 
机 器 学 习 中 研究 的 方法 。 数 据 挖掘 中 采用 机 器 学 习 的 方法 有 归纳 学 习 方 法 (覆盖 正 例 排 斥 
反例 方法 ,如 AQ 系列 算法 .决策 树 方法 .关联 规则 挖掘 等 )、. 遗 传 算法 发 现 学 习 算法 (如 公 
式 发 现 系 统 BACON) 等 。 

利用 数据 挖掘 的 方法 和 技术 从 数据 仓库 中 挖掘 的 信息 和 知识 ,反映 了 数据 仓库 中 数据 
的 规律 性 。 用 户 利用 这 些 信 息 和 知识 来 指导 和 帮助 决策 。 例 如 ,利用 分 类 规则 来 预测 未 知 
实体 的 类 别 。 


2. 数据 仓库 与 数据 挖掘 的 关系 


数据 仓库 与 数据 挖掘 都 是 决策 支持 新 技术 。 但 它们 有 着 完全 不 同 的 辅助 决策 方式 。 数 
据 仓 库 中 存储 着 大 量 辅助 决策 的 数据 , 它 为 不 同 的 用 户 随时 提供 各 种 辅助 决策 的 随机 查询 、 
综合 信息 或 趋势 分 析 信息 。 数 据 挖掘 是 利用 一 系列 算法 挖掘 数据 中 隐 含 的 信息 和 知识 ,让 
用 户 在 进行 决策 中 使 用 。 

数据 仓库 和 数据 挖掘 可 以 结合 起 来 。 在 数据 仓库 系统 前 端的 分 析 工 具 中 ,数据 挖掘 是 
其 中 重要 的 工具 之 一 。 它 可 以 帮助 决策 用 户 挖掘 数据 仓库 的 数据 中 隐 含 的 规律 性 。 

数据 挖掘 用 于 数据 仓库 实现 决策 支持 ,具体 表现 为 : 


% 生生 汤 


(1) 预测 客户 的 购买 倾向 ; 

(2) 进行 客户 利润 贡献 度 分 析 ; 

(3) 分 析 欺 诈 行为 ; 

(4) 进行 销售 渠道 优化 分 析 等 。 

数据 仓库 和 数据 挖掘 的 结合 对 支持 决策 会 起 到 更 大 的 作用 。 


3. 数据 仓库 中 数据 存储 特点 


数据 挖掘 兴起 是 针对 数据 库 的 , 随 着 数据 仓库 的 兴起 和 发 展 ,由 于 数据 仓库 不 同 于 数据 
库 ,数据 挖掘 也 随 之 发 生 了 变化 。 

(1) 数据 存储 方式 的 不 同 

数据 库 的 数据 存储 是 按照 管理 业务 中 事物 处 理 项 目的 要 求 而 存放 的 。 

数据 仓库 的 数据 存储 是 按 决策 分 析 需 求 而 存放 的 。 这 种 需求 是 以 决策 主题 为 对 象 的 ， 
典型 的 主题 是 客户 。 这 样 ,在 数据 仓库 中 ,客户 数据 需要 从 多 个 数据 库 集成 而 来 ,如 银行 数 
据 仓 库 需 要 从 储蓄、 信用 卡 .贷款 等 不 同 数据 库 中 ,对 同一 客户 的 数据 进行 抽取 并 集成 在 一 
起 ,以 便 完成 对 该 客户 的 分 析 。 

(2) 数据 存储 的 数据 量 的 不 同 

数据 库 的 数据 存储 量 相 对 数据 仓库 的 数据 存储 量 小 得 多 。 从 上 面 的 例子 可 以 看 出 ,以 
客户 主题 建立 数据 仓库 的 数据 量 是 储蓄 、 人 信用卡、 贷款 三 个 数据 库 的 数据 量 的 总 和 。 按 一 般 
的 统计 ,数据 仓库 的 数据 量 是 数据 库 数据 量 的 100 倍 。 数 据 仓 库 的 数据 量 比 数据 库 的 数据 
量 大 这 么 多 ,原因 在 于 : 数据 仓库 中 的 数据 (近期 基本 数据 ) 是 数据 库 中 数据 按 决 策 主 题 
重新 组 织 并 集成 而 来 的 ; @ 数 据 仓 库 中 的 数据 还 需要 保留 大 量 的 历史 数据 ,用 于 预测 分 析 ; 
@ 数 据 仓 库 为 了 给 不 同 级 别管 理 者 提供 各 种 决策 分 析 的 数据 ,需要 对 近期 基本 数据 进行 轻 
度 综合 和 高 度 综合 ,这 些 综合 数据 在 数据 仓库 中 占据 了 不 小 的 比重 。 近 期 基本 数据 ,历史 数 
据 , 综 合 数据 三 者 的 数据 相 加 ,使 数据 仓库 的 数据 量 远 远大 于 数据 库 中 的 数据 量 。 

(3) 数据 存储 的 结构 不 同 

由 于 数据 仓库 的 数据 量 远 大 于 数据 库 的 存储 量 ,因此 数据 库 的 关系 型 二 维 ( 平 面 ) 存 储 
格式 不 能 适应 于 数据 仓库 。 数 据 仓 库 的 数据 存储 结构 采用 多 维 的 超 立 方 体 结构 形式 。 数 据 
仓库 的 数据 存储 结构 采用 星 型 模型 或 者 多 维 立体 数据 库 形 式 。 


4. 数据 仓库 中 数据 挖掘 特点 


数据 仓库 的 最 大 应 用 在 于 扩展 市 场 , 制 定 营销 策略 ,争取 更 多 的 客户 。 
(1) 数据 挖掘 从 数据 仓库 中 挖掘 的 信息 
数据 挖掘 应 用 于 数据 仓库 后 ,能 挖掘 更 深层 次 的 信息 ,如 : 
Q@ 哪些 商品 一 起 销售 好 ? 〈 利 用 关联 分 析 ) 
@ 偏爱 某 类 商品 的 客户 特征 是 什么 ? (利用 聚 类 和 分 类 分 析 ) 
@@ 还 有 哪些 客户 具有 上 述 特征 ? (利用 类 比分 析 ) 
@ 哪些 商业 事务 处 理 可 能 有 欺诈 性 ? (利用 神经 网 络 ) 
高 价值 客户 的 共同 点 是 什么 ? (利用 分 类 分 析 ) 
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典型 的 例子 是 通过 数据 挖掘 对 高 价值 客户 以 及 可 能 离开 的 客户 进行 挖掘 ,得 出 它们 的 
特征 ,这 样 就 让 公司 做 出 决策 ,达到 保留 这 些 高 价值 的 客户 和 争取 可 能 离开 的 客户 ,从 而 提 
高 公司 的 利润 。 

(2) 数据 仓库 对 数据 挖掘 提出 了 新 要 求 

@ 数据 挖掘 需要 可 扩展 性 : 

数据 挖掘 对 数据 仓库 的 应 用 一 般 使 用 的 数据 是 详细 数据 ,不 用 综合 数据 ,因为 综合 数据 
“平滑 ”了 数据 间 的 差别 ,从 而 无 法 发 现 单个 数据 项 目 之 间 的 微妙 相关 性 。 

数据 仓库 中 的 数据 随 着 时 间 的 推移 逐渐 增长 。 这 样 , 数 据 挖掘 方法 就 应 该 具有 可 扩展 
性 ,能 够 处 理 递增 的 数据 量 。 

@ 数据 挖掘 方法 需要 能 挖掘 多 维 知识 : 

数据 仓库 中 的 数据 模型 是 多 维 数据 组 织 , 它 不 同 于 数据 库 的 二 维 数据 组 织 。 数 据 挖掘 
应 用 到 数据 仓库 时 需要 能 挖掘 多 维 数据 知识 。 

例如 ,对 数据 库 的 关联 分 析 只 能 得 到 同一 个 商品 维 中 不 同 商品 之 间 的 关联 关系 。 到 数 
据 仓 库 中 的 关联 分 析 就 应 该 能 对 多 维 数据 寻找 它们 的 关联 关系 , 即 除 不 同 商品 的 关联 外 ,还 
要 找 出 商品 与 商店 或 时 间 等 不 同 维 之 间 的 关联 关系 。 


1.3.2 基于 数据 仓库 的 决策 支持 系统 


在 建立 数据 仓库 之 前 ,利用 数据 库 来 完成 决策 分 析 时 ,由 于 决策 者 不 能 明确 表明 他 到 底 
需要 哪些 具体 数据 来 帮助 辅助 决策 ,一 开始 会 提出 一 个 粗糙 的 需求 ,由 IT( 信 息 技术 ) 人 员 
编写 专门 程序 从 数据 库 中 抽取 数据 ,形成 所 需 的 报告 。 决 策 者 根据 这 个 报告 会 马上 想起 需 
要 更 多 的 数据 ,提供 新 的 报告 。IT 人 员 重 新 编写 程序 抽取 新 的 数据 ,完成 新 的 报告 。 

由 于 决策 的 不 明确 性 ,对 数据 抽取 的 多 样 性 ,包括 不 同时 间 的 抽取 以 及 不 同 角度 的 抽 
取 ,形成 的 分 析 报 告 会 造成 不 同 的 结果 ,甚至 矛盾 的 结果 。 例 如 ,一 个 IT 人 员 提 出 的 分 析 

告 说 企业 的 业绩 下 降 了 15%, 另 一 个 IT 人 员 提 出 的 分 析 报 告 说 企业 的 业绩 上 升 了 10%。 
这 两 个 结论 不 但 不 吻合 ,而 且 相 去 甚 远 。 这 让 决策 者 很 难 相信 报告 结论 的 正确 性 ,也 无 法 帮 
助 他 做 出 决策 。 

从 而 认识 到 在 数据 库 的 基础 上 编写 专门 的 程序 ,获取 信息 辅助 决策 是 不 成 功 的 。 人 们 
把 用 这 种 方式 建立 的 决策 支持 系统 认为 是 失败 的 。 

为 了 建立 随时 提取 销售 量 最 好 的 产品 名 单 , 告 诉 出 现 问 题 的 地 区 ,并 能 分 析出 现 问 题 的 
原因 ,对 比 各 种 数据 ,显示 最 大 的 利润 等 辅助 决策 信息 的 决策 支持 系统 ,数据 仓库 成 了 唯一 
可 行 的 解决 方案 。 

数据 仓库 对 整个 企业 各 部 门 的 数据 进行 统一 和 综合 ,这 实际 上 是 对 决策 支持 的 一 次 革 
新 。 企 业 可 以 用 它 来 取得 各 个 重要 方面 的 数据 与 分 析 结 果 ,例如 商品 利润 .市场 分 析 和 风险 
管理 等 ,从 而 改善 企业 的 自身 管理 。 举 例 来 说 ,数据 仓库 用 户 可 以 立即 得 到 其 单位 当前 所 处 
地 位 的 准确 报告 ,了 解 其 公司 面临 的 风险 ,包括 各 项 事务 及 整个 企业 所 有 业务 面临 的 风险 ， 
并 对 市 场 和 法 规 条 例 的 需要 迅速 做 出 反应 。 

数据 仓库 的 决策 支持 功能 有 : 

(1) 对 当前 和 历史 数据 完成 查询 和 报表 处 理 ; 


二 


(2) 可 以 用 不 同方 法 进行 “如 果 , 将 怎样 (what-if) ”分 析 ; 

(3) 可 以 查询 细节 ,查询 综合 ,并 能 深入 追踪 查询 ( 钻 取 分 析 ); 

(4) 认 清 过 去 的 发 展 趋势 ,并 将 其 应 用 于 对 未 来 结果 的 分 析 。 

数据 仓库 是 为 辅助 决策 而 建立 的 , 单 依靠 数据 仓库 达到 辅助 决策 的 能 力 是 有 限 的 。 数 
据 仓 库 中 有 大 量 的 综合 数据 ,这 些 数据 为 决策 者 提供 了 综合 信息 , 即 反映 企业 或 部 门 的 宏观 
状况 。 数 据 仓 库 保存 有 大 量 历史 数据 ,这 些 数据 通过 预测 模型 计算 可 以 得 到 预测 信息 。 

综合 信息 与 预测 信息 是 数据 仓库 所 获得 的 辅助 决策 信息 。 

数据 仓库 (DW) 中 增加 联机 分 析 处 理 (OLAP) 和 数据 挖掘 (DM) 等 分 析 工 具 , 能 较 大 地 
提高 辅助 决策 能 力 。 联 机 分 析 处 理 (OLAP) 对 数据 仓库 中 的 数据 进行 多 维 数据 分 析 , 即 多 
维 数据 的 切片 . 切 块 .旋转 、 钻 取 等 ,只 有 通过 分 析 更 详细 的 数据 ,才能 得 到 更 深层 中 的 信息 
和 知识 。 例 如 节假日 销售 的 影响 、 某 日 的 促销 活动 的 影响 等 ,这 些 信息 在 综合 数据 中 是 反映 
不 出 来 的 。 数 据 挖 据 (DM) 技术 能 获取 关联 知识 、 时 序 知识 、 聚 类 知识 ,分 类 知识 等 。 只 有 
通过 数据 挖掘 技术 对 数据 仓库 中 数据 的 挖掘 ,才能 获取 更 多 的 辅助 决策 信息 和 知识 。 

数据 仓库 CDW) 和 联机 分 析 处 理 (OLAP) 及 数据 挖掘 (CDM) 相 结合 的 决策 支持 系统 ,是 
以 数据 仓库 为 基础 的 ,被 称 为 基于 数据 仓库 的 决策 支持 系统 ,其 结构 如 图 1. 1 所 示 。 


决策 用 户 “ 上 -一 决策 信息 
知识 “综合 信息 ”分析 信息 
联机 分 析 处 理 
数据 挖掘 
要 


图 1.1 基于 数据 仓库 的 决策 支持 系统 结构 


概括 地 说 ,基于 数据 仓库 的 决策 支持 系统 是 从 数据 仓库 的 数据 中 获取 辅助 决策 的 信息 
和 知识 ,为 决策 提供 支持 。 

基于 数据 仓库 的 决策 支持 系统 不 同 于 20 世纪 80 年 代 出 现 的 基于 模型 的 决策 支持 系统 
和 20 世纪 90 年 代 兴 起 的 智能 决策 支持 系统 。 因 此 ,把 基于 模型 和 知识 的 智能 决策 支持 系 
统称 为 传统 的 决策 支持 系统 ,而 把 基于 数据 仓库 的 决策 支持 系统 称 为 新 决策 支持 系统 。 


1.3.3 数据 仓库 与 商业 智能 


1. 商业 智能 的 概念 


商业 智能 是 在 20 世纪 90 年 代 中 期 提出 的 。 商 业 智能 以 数据 仓库 为 基础 ,通过 联机 分 
析 处 理 和 数据 挖掘 技术 帮助 企业 领导 者 针对 市 场 变化 的 环境 ,做 出 快速 .准确 的 决策 。 
商业 智能 与 新 决策 支持 系统 从 组 成 和 目标 来 看 是 一 致 的 。 但 是 ,商业 智能 是 一 种 技术 ， 
新 决策 支持 系统 是 解决 实际 决策 问题 的 一 个 系统 。 可 以 理解 为 : 新 决策 支持 系统 是 利用 商 
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业 智 能 技术 来 解决 实际 决策 问题 的 系统 。 

数据 仓库 .联机 分 析 处 理 与 数据 挖掘 组 成 的 商业 智能 所 体现 的 智能 行为 在 于 ,能 够 解决 
市 场 环境 中 随机 变化 的 决策 问题 。 由 于 市 场 千 变 万 化 ,每 次 需要 解决 的 决策 问题 都 不 相同 。 
解决 随机 出 现 的 问题 需要 利用 智能 的 手段 。 商 业 智能 所 提供 的 智能 手段 表现 为 联机 分 析 处 
理 的 任意 切片 ` 切 块 和 钻 取 , 以 及 利用 数据 挖掘 技术 所 获得 的 知识 。 


2. 商业 智能 辅助 制定 更 好 更 快 的 决策 


公司 需要 制定 的 决策 有 两 类 : 由 高 层 管理 者 制定 宏观 的 战略 决策 ;基层 人 员 在 日 常事 
务 中 制定 决策 。 战 略 决策 有 : 投资 哪个 项 目 ? 哪些 业务 需要 分 离 还 是 合并 ? 制定 销售 策略 
等 。 事务 决策 有 : 销售 员 决 定 是 否 给 一 个 客户 折扣 ;生产 经 理 决定 是 否 投 产 一 个 新 产品 以 
满足 客户 需求 ;市 场 营销 专家 决定 是 否 要 进行 新 一 轮 的 直接 邮购 活动 ;采购 经 理 决 定 是 否 买 
更 多 的 材料 ;等 等 。 这 些 事 务 决策 只 具有 “战术 ”意义 ,不 会 影响 到 业务 运作 的 基础 ,但 从 总 
体 效果 看 ,其 重要 性 并 不 亚 于 企业 高 级 管理 人 员 做 出 的 重大 决策 ,也 会 直接 影响 企业 的 成 
败 。 这 些 决 策 很 少 是 通过 决策 分 析 做 出 的 ,大 多 靠 的 是 经 验 、 积 累 的 知识 和 惯常 的 做 法 。 提 
高 企业 日 常 工作 中 的 决策 质量 ,将 直接 对 企业 的 成 本 和 营业 收入 产生 影响 。 

商业 智能 改进 企业 决策 过 程 ,表现 在 如 下 方面 。 

(1) 信息 共享 

有 了 商业 智能 系统 就 可 以 实现 信息 共享 ,用 户 可 以 迅速 找到 所 需要 的 数据 ,通过 对 数据 
进行 钻 取 分 析 以 达到 目标 。 例 如 , 某 公 司 通 过 商业 智能 系统 跟踪 商品 的 质量 管理 ,能 及 时 发 
现 问题 ,而 不 是 一 个 星期 后 再 查阅 各 种 报告 来 发 现 问题 。 时 间 的 节省 以 及 产品 质量 的 提高 ， 
不 仅 降 低 了 企业 的 成 本 ,也 给 公司 带 来 了 更 多 的 收入 。 

(2) 实时 反馈 分 析 

商业 智能 的 运用 能 够 使 员工 随时 看 到 工作 进展 程度 ,并 且 了 解 一 个 特定 的 行为 对 现实 
目标 的 效用 。 如 果 员 工 们 都 能 看 到 自己 的 行为 如 何 提升 或 者 影响 了 业绩 ,那么 也 就 不 需要 
过 于 复杂 的 激励 体系 了 。 

例如 朋 斯 卡 物流 公司 ,司机 的 激励 机 制 与 其 驾驶 表现 ,如 每 英里 的 耗 油 量 和 损耗 程度 等 
成 本 控制 方面 的 因素 相关 联 。 通 过 电子 商业 智能 系统 ,公司 的 主 控 电脑 就 能 根据 司机 出 车 
行驶 的 里 程 计 算出 每 加 仑 汽油 能 支持 的 里 程 数 , 然 后 再 把 数据 传输 到 数据 仓库 ,通过 数据 仓 
库 , 员 工 们 就 可 以 分 析 提 高 绩效 的 可 能 性 , 即 发 现 如 何 调整 汽车 保养 或 司机 驾驶 习惯 来 达到 
业绩 目标 ,提高 业务 水 平 并 创造 更 多 的 价值 。 

(3) 鼓励 用 户 找 出 问题 的 根本 原因 

根据 初步 得 到 的 答案 而 采取 的 行动 可 能 未 必 正 确 , 因 为 初步 的 探究 往往 没有 发 现 根本 
问题 的 所 在 。 要 找 出 根本 原因 就 需要 对 与 成 功 或 失败 相关 的 诸多 因素 进行 深度 分 析 。 

通过 企业 商业 智能 系统 ,能 够 找到 某 部 门 业绩 糟糕 或 者 出 色 的 根本 原因 ,只 要 不 断 地 追 
问 * 为 什么 ? 为 什么 ?”。 这 个 过 程 可 能 是 从 分 析 一 个 报告 开始 ,比如 每 季度 的 销售 情况 ,每 
个 答案 引出 一 个 新 间 题 ,采取 钻 取 或 分 析 方 法 ,就 能 把 最 根本 的 原因 找 出 来 。 例 如 ,通过 企 
业 商 业 智 能 系统 , 制 衣 商 发 现 他们 推出 的 市 场 促 销 活动 效果 不 理想 。 在 分 析 了 诸多 数据 后 ， 
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制 衣 商 开 始 把 价格 与 市 场 需 求 进 行 灵 活 挂钩 。 结 果 , 该 制 衣 商 缩短 了 存货 时 间 ,提高 了 存货 
管理 的 效率 ,营运 资本 .销售 利润 等 几 项 主要 业绩 指标 也 明显 好 转 。 

(4) 使 用 主动 智能 

在 数据 仓库 中 设 定 预警 机 制 ,一旦 出 现 超过 预警 条 件 的 数据 ,就 自动 通过 各 种 设备 , 比 
如 电子 邮件 .传呼 .手机 等 通知 用 户 。 这 种 主动 智能 有 助 于 用 户 及 时 决断 ,并 采取 相应 措施 。 

(5) 实时 智能 

企业 采用 真正 的 实时 智能 ,将 大 大 提高 运营 效率 、 降 低 成 本 、 提 高 服务 质量 。 例 如 , 朋 斯 
卡 物流 公司 认识 到 需要 一 个 商业 智能 系统 来 实时 监控 和 智能 管理 运输 和 物流 业务 ,该 系统 
掌握 了 很 多 信息 ,把 货物 运载 量 维持 在 一 个 最 高 的 水 平 ,帮助 客户 更 快 地 把 货物 从 A 地 送 
到 B 地 。 企 业 商 业 智能 系统 能 实时 跟踪 卡车 的 货物 装载 量 ,如 果 一 辆 卡车 的 装载 量 只 有 最 
大 装载 量 的 一 半 ,公司 根据 商业 智能 系统 发 出 指令 让 该 车 调整 路 线 ,再 装载 一 些 货物 。 该 系 
统 使 公司 的 所 有 营业 收入 上 升 了 很 多 。 


习 题 1 


1. 数据 库 与 数据 仓库 的 本 质 差别 是 什么 ? 

2. 从 数据 库 发 展 到 数据 仓库 的 原因 是 什么 ? 

3. 举例 说 明 数据 库 与 数据 仓库 的 不 同 。 

4. 说 明 OLTP 概念 和 OLAP 概念 。 

5. OLTP 如 何在 网 络 数 据 库 上 进行 事务 处 理 ? 
6. 说 明 OLTP 与 OLAP 的 主要 区 别 。 

7. 数据 库 中 数据 字典 包括 哪些 内 容 ? 

8. 元 数据 的 定义 是 什么 ? 

9. 元 数据 与 数据 字典 的 关系 是 什么 ? 

10. 数据 仓库 的 定义 是 什么 ? 

11. 数据 仓库 的 特点 有 哪些 ? 

12. 说 明 机 器 学 习 如 何 形成 人 工 智能 的 学 科 方 向 。 
13. 说 明 数 据 挖掘 的 含义 。 

14. OLAP 多 维 分 析 如 何 辅助 决策 ”举例 说 明 。 
15. 数据 挖掘 与 OLAP 有 什么 不 同 ? 

16. 举例 说 明 统计 学 的 价值 。 

17. 说 明 统 计 学 应 用 于 数据 挖掘 中 所 包含 的 内 容 。 
18. 说 明 统 计 学 与 数据 挖掘 的 不 同 。 

19. 说 明 数 据 仓库 与 数据 挖掘 的 区 别 与 联系 。 
20. 数据 挖掘 应 用 于 数据 库 与 数据 挖掘 应 用 于 数据 仓库 有 什么 不 同 ? 
21. 举例 说 明 数 据 控 掘 从 数据 仓库 中 挖掘 的 信息 有 哪些 。 
22. 数据 仓库 对 数据 挖掘 提出 了 哪些 新 要 求 ? 


23. 
24. 
25. 
26. 
2 
28. 
29, 


数据 仓库 与 联机 分 析 处 理 数据 挖掘 在 决策 支持 方面 有 什么 不 同 ? 


基于 数据 仓库 的 决策 支持 系统 的 组 成 是 什么 ? 

画 出 基于 数据 仓库 的 决策 支持 系统 结构 图 。 

说 明基 于 数据 仓库 的 决策 支持 系统 与 传统 决策 支持 系统 有 什么 
商业 智能 概念 是 什么 ? 


区 别 。 


如 何 理解 商业 智能 与 基于 数据 仓库 的 决策 支持 系统 的 区 别 和 联系 ? 


商业 智能 在 哪些 方面 改进 企业 决策 过 程 ? 


中 高 


第 2 章 数 沁 仓库 启 理 
2.1 数据 仓库 结构 体系 


2.1.1 数据 仓库 结构 


数据 仓库 是 在 原 有 关系 型 数据 库 基 础 上 发 展 形成 的 ,但 不 同 于 数据 库 系统 的 组 织 结构 
形式 。 它 从 原 有 的 大 量 业务 数据 库 中 获得 的 数据 ,经 过 转换 后 形成 当前 基本 数据 层 ; 它 经 过 
综合 后 形成 轻 度 综 合 数据 层 ; 轻 度 综合 数据 再 经 过 综合 后 形成 高 度 综 合 数据 层 。W. H. 
Inmon 在 《建立 数据 仓库 ) 一 书 中 给 出 数据 仓库 的 结构 如 图 2. 1 所 示 。 数 据 仓库 结构 包括 当 
前 基本 数据 (current detail data) .历史 基本 数据 (older detail data) 、 轻 度 综 合 数 据 (lightly 
summarized data) 、 高 度 综合 数据 (highly summarized data) \ 元 数据 (meta data)。 


高 度 综合 数据 层 


轻 度 综合 数据 层 


当前 基本 数据 层 


2 历史 数据 层 


图 2.1 数据 仓库 结构 图 


往 举 计 | 


当前 基本 数据 是 最 近 时 期 的 业务 数据 ,是 数据 仓库 用 户 最 感 兴趣 的 部 分 ,数据 量 大 。 当 
前 基本 数据 随时 间 的 推移 ,由 数据 仓库 的 时 间 控 制 机制 转 为 历史 基本 数据 ,一 般 被 转 存 于 介 
质 中 ,如 磁带 等 。 轻 度 综合 数 据 是 从 当前 基本 数据 中 提取 出 来 的 ,设计 这 层 数据 结构 时 会 遇 
到 “综合 处 理 数 据 的 时 间 段 选取 ,综合 数据 包含 哪些 数据 属性 (attributes) 和 内 容 
(contents) "等 问题 。 最 高 一 层 是 高 度 综合 数据 层 , 这 一 层 的 数据 十 分 精练 ,是 一 种 准 决策 
数据 。 

整个 数据 仓库 的 组 织 结构 是 由 元 数据 来 组 织 的 , 它 不 包含 任何 业务 数据 库 中 的 实际 数 
据 信 息 。 元 数据 在 数据 仓库 中 扮演 了 重要 的 角色 , 它 包括 如 下 信息 : 四 数据 仓库 的 目录 信 
息 (数据 字典 ); 加 数据 从 数据 库 环境 向 数据 仓库 环境 转换 时 对 应 的 说 明 ; 加 指导 从 当前 基 
本 数据 到 综合 数据 的 综合 方式 的 说 明 ; 四 指导 用 户 使 用 数据 仓库 。 

在 数据 库 中 只 存储 当前 的 详细 数据 。 而 数据 仓库 除 存储 按 主题 组 织 起 来 的 当前 详细 数 
据 外 ,还 需要 存储 综合 数据 ,这 是 为 适应 决策 需求 而 增加 的 。 在 数据 库 中 需要 得 到 综合 数据 
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时 ,采用 数据 立方 体 方法 ( 见 3. 4.4 节 ) 对 详细 数据 进行 综合 。 在 数据 仓库 中 并 不 采取 临时 
计算 的 方式 得 到 综合 数据 ,而 是 在 用 户 提出 需要 综合 数据 之 前 ,就 预先 将 可 能 需要 的 综合 数 
据 利 用 数据 立方 体 计算 好 , 存 人 综合 数据 层 中 ,这 种 综合 数据 层 在 用 户 查 询 时 ,能 迅速 提供 
给 用 户 。 为 此 ,在 建 数据 仓库 时 ,要 分 析 好 各 类 用 户 可 能 需要 哪些 综合 数据 ,并 将 这 些 综合 
数据 都 存储 在 综合 数据 层 中 。 

综合 数据 与 详细 数据 是 不 同 “ 粒 度 ” 的 数据 。 粒 度 是 指数 据 仓库 的 数据 单元 中 保存 数据 
的 细 化 或 综合 程度 的 级 别 。 细 化 程度 越 详细 ,粒度 级 就 越 低 。 

不 同 粒度 数据 的 存储 数据 量 差 距 很 大 。 例 如 ,在 低 粒 度 级 (详细 数据 ) 上 ,每 次 电话 都 详 
细 记 录 下 来 ,一 个 月 每 位 顾客 平均 有 200 条 记录 ,总 共 需 要 40 000 个 字 节 。 在 高 粒度 级 ( 综 
合 数据 ) ,每 位 顾客 只 有 一 个 记录 ,大 约 只 需要 200 个 字 节 。 

高 粒度 级 不 仅 只 需要 少 得 多 的 字 节 存放 数据 ,而 且 只 需要 较 少 的 索引 项 。 这 样 的 数据 

在 数据 仓库 环境 中 ,粒度 之 所 以 是 设计 数据 仓库 的 一 个 重要 方面 ,不 仅 因为 它 影响 了 存 
放 在 数据 仓库 中 的 数据 量 的 大 小 , 它 同时 也 影响 数据 仓库 所 能 回答 的 查询 类 型 。 当 提高 数 
据 粒 度 时 (综合 数据 ) ,数据 所 能 回答 查询 的 能 力 将 会 随 之 降低 。 而 很 小 粒度 的 数据 (详细 数 
据 ) 可 以 回答 任何 问题 ,但 在 高 粒度 的 数据 上 (综合 数据 ) ,可 以 回答 的 问题 具有 宏观 性 。 

例如 ,提出 如 下 查询 :“ 张 三 上 星期 是 否 给 他 在 外 地 的 女友 打 了 电话 ?”。 在 低 粒度 级 上 
这 个 问题 是 可 以 回答 的 ,这 需要 查阅 大 量 的 记录 ,该 查询 最 终 总 是 可 以 确定 的 。 然 而 在 高 粒 
度 级 上 就 无 法 明确 回答 这 个 问题 ,因为 在 高 粒度 级 上 只 存放 有 张 三 打 出 电话 的 总 数 ,并 不 能 
确定 其 中 是 否 有 一 个 电话 是 打 往 外 地 女友 的 。 

但 是 ,在 进行 决策 分 析 时 ,很 少 对 单个 事件 进行 查询 ,通常 是 针对 某 个 数据 集合 进行 处 
理 的 (这 在 数据 仓库 环境 中 是 常见 的 )。 例 如 ,提出 综合 查询 :“ 上 个 月 人 们 从 广州 打出 的 长 
途 电话 平均 有 多 少 个 ?”。 在 决策 分 析 中 ,这 种 类 型 的 查询 非常 多 。 该 查询 既 可 以 在 高 粒度 
上 也 可 以 在 低 粒 度 上 进行 处 理 。 但 在 回答 这 个 问题 时 ,在 不 同 粒度 级 上 所 使 用 的 资源 具有 
相当 大 的 差别 。 在 低 粒度 级 上 回答 这 个 问题 需要 查询 每 一 个 记录 ,使 用 大 量 的 资源 来 回答 
这 个 问题 。 在 高 粒度 级 上 ,包括 了 足够 的 细节 (如 包括 每 个 顾客 打出 长 途 电 话 的 次 数 ) , 则 使 
用 高 粒度 级 数据 的 效率 就 会 高 很 多 。 例 如 ,在 轻 度 综合 级 上 电话 记录 如 下 ,将 能 使 用 较 少 的 
资源 回答 以 上 问题 : 

三 月 份 , 李 四 , 电 话 数量 : 46 个 :电话 平均 长 度 : 10 分 钟 ; 长 途 电话 数 : 12 个 ;等 等 。 

在 数据 仓库 中 存储 多 种 粒度 数据 (详细 层 、 轻 度 综合 层 ,高 度 综合 层 等 ) 是 为 了 提高 决策 
分 析 效 果 。 大 部 分 决策 分 析 处 理 是 针对 存储 效率 高 的 轻 度 综合 层 数据 进行 的 。 当 需要 分 析 
更 低 的 细节 级 数据 ( 占 5% 或 者 更 少 的 可 能 ) 时 ,可 以 到 详细 数据 层 数 据 上 进行 。 在 详细 数 
据 层 上 访问 数据 是 昂贵 的 .复杂 的 。 


2.1.2 数据 集 市 及 其 结构 


数据 仓库 是 企业 级 的 ,能 为 整个 企业 各 个 部 门 的 运行 提供 决策 支持 手段 ;而 数据 集 市 则 
是 部 门 级 的 ,一 般 只 能 为 某 个 局 部 范围 内 的 管理 人 员 服 务 , 因 此 也 称 之 为 部 门 级 数据 仓库 


(Departmental Data Warehouse) 。 


二 


1. 数据 集 市 的 产生 


数据 仓库 的 工作 范围 和 成 本 常常 是 巨大 的 。 信 息 技术 部 门 必须 对 所 有 的 用 户 并 以 全 企 
业 的 眼光 对 待 任何 一 次 决策 分 析 。 这 样 ,就 形成 了 代价 很 高 的 、 耗 时 较 长 的 大 项 目 。 

于 是 提供 更 紧密 集成 的 ,拥有 完整 图 形 接口 并 且 价 格 吸引 人 的 工具 一 一 数据 集 市 (Data 
Marts) ,就 应 运 产生 。 

目前 ,全 世界 对 数据 仓库 总 投资 的 一 半 以 上 均 集中 在 数据 集 市 上 。 


2. 数据 集 市 的 概念 


数据 集 市 是 一 种 更 小 .更 集中 的 数据 仓库 ,为 公司 提供 了 一 条 分 析 商 业 数 据 的 廉价 
途径 。 
数据 集 市 是 指 具 有 特定 应 用 的 数据 仓库 ,主要 针对 某 个 具有 战略 意义 的 应 用 或 者 具体 
部 门 级 的 应 用 ,支持 用 户 利用 已 有 的 数据 获得 重要 的 竞争 优势 或 者 找到 进入 新 市 场 的 具体 
解决 方案 。 

数据 集 市 有 两 种 , 即 独立 的 数据 集 市 (Independent Data Mart) 和 从 属 的 数据 集 市 
(Dependent Data Mart ) 。 


3. 数据 集 市 与 数据 仓库 的 差别 


(1) 数据 仓库 是 基于 整个 企业 的 数据 模型 建立 的 , 它 面向 企业 范围 内 的 主题 。 而 数据 
集 市 是 按照 某 一 特定 部 门 的 数据 模型 建立 的 ,由 于 每 个 部 门 有 自己 特定 的 需求 ,因此 ,它们 
对 数据 集 市 的 期 望 也 不 一 样 。 

(2) 部 门 的 主题 与 企业 的 主题 之 间 可 能 存在 关联 ,也 可 能 不 存在 关联 。 数 据 仓库 中 存 
储 整 个 企业 内 非常 详细 的 数据 ,而 数据 集 市 中 数据 的 详细 程度 要 低 一 些 , 包 含 概 要 和 累加 数 
据 要 多 一 些 。 

(3) 数据 集 市 的 数据 组 织 一 般 采 用 星 型 模型 。 大 型 数据 仓库 的 数据 组 织 , 如 NCR 公司 
采用 第 三 范式 。 


4. 数据 集 市 的 特性 


数据 集 市 有 如 下 特性 : 

(1) 规模 是 小 的 ; 

(2) 特定 的 应 用 ; 

(3) 面向 部 门 ; 

(4) 由 业务 部 门 定义 ,设计 和 开发 ; 

(5) 由 业务 部 门 管理 和 维护 ; 

(6) 快速 实现 ; 

(7) 价格 较 低廉 ; 

(8) 投资 快速 回收 ; 

(9) 工具 集 的 紧密 集成 ; 
i 


(10) 更 详细 的 、 预 先 存 在 的 数据 仓库 的 摘要 子 集 ; 
(11) 可 升级 到 完整 的 数据 仓库 。 


5. 两 种 数据 集 市 的 结构 


(1) 从 属 数据 集 市 

从 属 数据 集 市 的 逻辑 结构 见 图 2. 2。 

所 谓 从 属 ,是 指 它 的 数据 直接 来 自 于 中 央 数 据 仓库 。 显 然 , 这 种 结构 仍 能 保持 和 数据 仓 
库 的 一 致 性 。 一 般 为 那些 访问 数据 仓库 十 分 频繁 的 关键 业务 部 门 建立 从 属 的 数据 集 市 ,这 
样 可 以 很 好 地 提高 查询 的 反应 速度 。 

(2) 独立 数据 集 市 

独立 数据 集 市 的 逻辑 结构 见 图 2. 3。 


数据 源 


图 2.2 从 属 数据 集 市 的 结构 图 2.3 独立 数据 集 市 的 结构 


独立 数据 集 市 的 数据 直接 来 源 于 各 生产 系统 。 许 多 企业 在 计划 实施 数据 仓库 时 ,往往 
出 于 投资 方面 的 考虑 ,最 后 建成 独立 数据 集 市 ,用 来 解决 个 别 部 门 比较 迫切 的 决策 问题 。 从 
这 个 意义 上 讲 , 它 和 企业 数据 仓库 除了 在 数据 量 大 小 和 服务 对 象 上 有 所 区 别 外 ,逻辑 结构 并 
无 多 大 区 别 , 这 是 把 数据 集 市 称 为 部 门 数据 仓库 的 主要 原因 。 


6. 关于 数据 集 市 的 误区 


数据 集 市 是 一 个 数据 分 支 子 集 , 它 可 以 从 一 个 数据 仓库 中 找到 ,或 者 是 支持 一 个 单独 业 
务 单元 的 决策 支持 而 建立 的 。 甚 至 企业 的 大 部 分 战略 都 可 以 由 数据 集 市 来 完成 ,在 这 个 过 
程 中 制定 行动 方针 。 但 是 ,在 建立 一 个 数据 集 市 之 前 ,企业 应 该 知道 几 个 关于 数据 集 市 的 不 
切实 际 的 看 法 。 

(1) 单纯 用 数据 量 大 小 来 区 分 数据 集 市 和 数据 仓库 

用 大 小 来 判断 一 个 企业 是 在 实施 数据 仓库 还 是 数据 集 市 的 做 法 是 很 片面 的 。 尺寸 大 小 
不 是 数据 集 市 的 本 质 特征 ,真正 的 问题 在 于 ,数据 集 市 ( 它 可 能 是 一 个 数据 仓库 的 子 集 ) 的 数 
据 模型 一 定 是 满足 应 用 的 特定 需求 的 。 


。2] 。 


(2) 简单 地 理解 数据 集 市 容易 建立 

数据 集 市 的 确 比 数据 仓库 的 复杂 程度 低 一 些 , 因 为 它 只 针对 某 一 需要 解决 的 特定 的 商 
业 问 题 ,但 是 围绕 数据 获取 的 很 多 复杂 问题 并 没有 减少 。 

数据 集 市 要 从 多 个 数据 源 中 提取 数据 ,这 个 过 程 很 耗 时 ,因为 这 个 过 程 与 建立 一 个 数据 
仓库 一 样 ,需要 相同 的 计划 和 管理 ,并 且 需 要 把 数据 模型 化 。 

(3) 数据 集 市 很 容易 升级 成 数据 仓库 

事实 上 ,数据 集 市 针对 特殊 的 业务 需要 ,不 可 能 很 容易 地 伸缩 。 如 果 没 有 事先 扩展 数据 
模型 ,追加 数据 是 非常 困难 的 。 例 如 ,一 个 数据 集 市 可 以 很 快 找到 最 畅销 款式 的 鞋 的 销售 数 
字 , 为 了 增加 关于 这 种 鞋 的 信息 ,比如 新 顾客 的 百分比 ,就 需要 新 的 数据 模型 ,这 种 数据 集 市 
的 扩充 是 困难 的 。 


2.1.3 数据 仓库 系统 结构 


数据 仓库 系统 由 数据 仓库 CDW)、 仓 库 管 理 和 分 析 工 具 三 部 分 组 成 ,其 结构 形式 如 
图 2.4 所 示 。 


数据 建 模 查询 工具 
综合 数据 
抽取 、 转 换 
装载 (ETL) OLAP 工 具 
站 | 当前 数据 
元 数据 DM 工具 
历史 数据 
系统 管理 C/S 工 具 
源 数据 仓库 管理 数据 仓库 分 析 工 具 


图 2.4 数据 仓库 系统 结构 图 


数据 仓库 的 数据 来 源 于 多 个 数据 源 。 源 数据 包括 企业 内 部 数据 、 市 场 调查 报告 以 及 各 
种 文档 之 类 的 外 部 数据 。 


1. 仓库 管理 


仓库 管理 包括 数据 建 模 ; 数 据 抽 取 、 转 换 、 装 载 (ETL) ;元 数据 ;系统 管理 等 四 部 分 。 

(1) 数据 建 模 

数据 建 模 是 建立 数据 仓库 的 数据 模型 (Data Model) 。 数 据 模型 是 现实 世界 数据 特征 的 
抽象 。 数 据 模型 一 般 包 括 数据 结构 和 数据 操作 。 数 据 结构 包括 数据 类 型 内容、 数据 之 间 的 
关系 , 它 是 数据 模型 的 静态 描述 。 数 据 操作 是 对 数据 仓库 中 数据 所 允许 的 操作 ,如 检索 、 计 
算 等 。 

数据 仓库 的 数据 模型 , 按 数据 仓库 设计 过 程 分 为 概念 数据 模型 .逻辑 数据 模型 和 物理 数 
据 模型 。 

数据 仓库 的 数据 模型 不 同 于 数据 库 的 数据 模型 体现 在 以 下 方面 : 
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@ 数据 仓库 的 数据 模型 的 数据 只 为 决策 分 析 用 ,不 包含 那些 纯 事务 处 理 的 数据 。 

@ 数据 仓库 的 数据 模型 中 增加 了 时 间 属 性 的 代码 数据 。 

@ 数据 仓库 的 数据 模型 中 增加 了 一 些 导出 数据 ,如 综合 数据 等 。 

数据 仓库 的 数据 建 模 是 使 建立 的 物理 (存储 ) 数 据 模型 能 适应 决策 用 户 使 用 的 逻辑 数据 
模型 。 

(2) 数据 抽取 、 转 换 、 装 载 (ETL) 

数据 仓库 中 的 数据 ,是 通过 在 源 数据 中 抽取 数据 , 按 数据 仓库 的 逻辑 数据 模型 的 要 求 进 
行 数据 转换 ,再 按 物 理 数据 模型 的 要 求 装载 存储 到 数据 仓库 中 去 的 。 

数据 抽取 转换、 装载 (ETL) 是 建立 数据 仓库 的 重要 步骤 ,也 是 一 项 烦琐 、 耗 时 且 费 劲 
的 工作 ,需要 花费 开发 数据 仓库 70% 的 工作 量 。 

(3) 元 数据 

元 数据 在 数据 仓库 中 扮演 了 一 个 新 的 重要 角色 。 元 数据 不 仅 是 数据 仓库 的 字典 ,要 指 
导数 据 的 抽取 转换、 装载 (ETL) 工 作 , 还 要 指导 用 户 使 用 数据 仓库 。 

(4) 系统 管理 

系统 管理 包括 数据 管理 ,性 能 监控 ,存储 器 管理 以 及 安全 管理 等 。 

数据 管理 包括 为 适应 竞争 变化 的 业务 需求 更 新 数据 清理 脏 数据 、 删 除 休 眼 数 据 等 
工作 。 

系统 对 性 能 的 监控 是 搜集 和 分 析 系 统 性 能 的 信息 ,确定 系统 是 否 达 到 了 所 确定 的 服务 
水 平 。 

存储 器 管理 是 使 数据 仓库 的 存储 器 要 适应 数据 量 的 增长 需求 ,实现 用 户 的 快速 检索 。 

安全 管理 是 保证 应 用 程序 的 安全 以 及 数据 仓库 访问 的 安全 。 


2. 分 析 工 具 


由 于 数据 仓库 的 数据 量 大 ,因此 必须 有 一 套 功 能 很 强 的 分 析 工 具 集 来 实现 从 数据 仓库 
中 提供 辅助 决策 的 信息 ,完成 决策 支持 系统 (DSS) 的 各 种 要 求 。 

(1) 查询 工具 

数据 仓库 的 查询 不 是 指 对 记录 级 数据 的 查询 ,而 是 指 对 分 析 要 求 的 查询 。 以 图 形 化 方 
式 展 示 数 据 ,可 以 帮助 了 解数 据 的 结构 、 关 系 以 及 动态 性 。 

(2) 多 维 数据 分 析 工 具 (OLAP 工具 ) 

通过 对 多 维 数据 进行 快速 一致 和 交互 性 的 存 取 ,有 利于 用 户 对 数据 进行 深入 的 分 析 和 

多 维 数据 的 每 一 维 代表 对 数据 的 一 个 特定 的 观察 视角 ,如 时 间 、 地 域 .业务 等 。 

(3) 数据 挖掘 工具 CDM 工具 ) 

从 大 量 数据 中 挖掘 具有 规律 性 的 知识 ,需要 利用 数据 挖 握 中 的 各 种 不 同 算法 。 

(4) 客户 /服务 器 (C/S) 

数据 仓库 一 般 都 是 以 服务 器 (Server) 形 式 在 网 络 环境 下 提供 服务 ,能 对 多 个 客户 
(Client) 同 时 提供 服务 。 


2.1.4 数据 仓库 的 运行 结构 


数据 仓库 应 用 是 一 个 典型 的 客户 /服务 器 (C/VS) 结 构 形式 ,如 图 2.5 所 示 。 数 据 仓 库 采 
用 服务 器 结构 ,客户 端 所 做 的 工作 有 客户 交互 .格式 化 查询 、 结 果 显 示 、 报 表 生 成 等 。 服 务 器 
端 完成 各 种 辅助 决策 的 SQL 或 MDX( 见 3. 4.5 节 ) 查 询 、 复 杂 的 计算 和 各 类 综合 功能 等 。 

现在 , 越 来 越 普 通 的 一 种 形式 是 三 层 C/S 结构 形式 , 即 在 客户 端 与 数据 仓库 服务 器 之 
间 增 加 一 个 多 维 数据 分 析 (OLAP) 服 务 器 ,如 图 2.6 所 示 。 


只 | [数据 邓 库 |_「 OLAP | [数据 厄 库 
客户 喘 服务 器 | 客户 端 服务 器 服务 器 
图 2.5 数据 仓库 的 C/S 结构 图 2.6 数据 仓库 应 用 的 三 层 C/S 结构 


OLAP 服务 器 将 加 强 和 规范 化 决策 支持 的 服务 工作 ,集中 和 简化 了 数据 仓库 服务 器 的 
部 分 工作 , 即 OLAP 服务 器 从 数据 仓库 服务 器 中 抽取 数据 ,在 OLAP 服务 器 中 转换 成 客户 
端 用 户 要 求 的 多 维 视图 ,并 进行 多 维 数据 分 析 , 将 分 析 结 果 传 送 给 客户 端 。 这 种 结构 形式 工 
作 效 率 更 高 。 


2.2 数据 仓库 数据 模型 


数据 仓库 不 同 于 数据 库 。 数 据 仓库 的 逻辑 数据 模型 是 多 维 结构 的 数据 视图 ,也 称 多 维 
数据 模型 。 

在 多 维 数据 模型 中 ,主要 数据 是 实际 数值 ,如 销售 量 .投资 额 \ 收 入 等 。 而 这 些 数值 是 依 
赖 于 一 组 “ 维 ” 的 ,这 些 维 提供 了 实际 值 的 上 下 文 关系 。 例 如 销售 量 与 城市 .商品 名 称 、 销 售 
时 间 有 关 , 这 些 相关 的 维 唯一 决定 了 这 个 销售 实际 值 。 因 此 ,多 维 数据 视图 就 是 在 这 些 维 构 成 
的 多 维 空间 中 存放 着 数字 实际 值 。 图 2.7 中 的 小 格 内 存储 的 数据 可 以 假设 为 商品 的 销售 量 。 


城市 维 


时 间 维 
图 2.7 数据 仓库 的 数据 模型 


多 维 数据 模型 的 另 一 个 特点 是 对 一 个 或 多 个 维 所 完成 的 集合 运算 ,例如 对 总 销售 量 按 
城市 进行 计算 和 排序 。 这 些 运算 还 包括 对 于 同样 维 的 实际 值 进行 比较 (如 销售 与 预算 ) 。 一 
es。 24 。 


般 来 说 ,时 间 维 是 一 个 有 特殊 意义 的 维 , 它 对 决策 中 的 趋势 分 析 很 重要 。 
对 于 逻辑 数据 模型 ,可 以 使 用 不 同 的 存储 机 制 和 表示 模式 来 实现 多 维 数据 模型 。 目 前 ， 
使 用 的 多 维 数据 模型 主要 有 星 型 模型 .雪花 模型 . 星 网 模型 .第 三 范式 等 。 


2.2.1 星 型 模型 


大 多 数 的 数据 仓库 都 采用 “ 星 型 模型 *。 星 型 模型 是 由 “事实 表 ”( 大 表 ) 以 及 多 个 “ 维 表 ” 
(小 表 ) 所 组 成 的 。“ 事 实 表 ”中 存放 着 大 量 关于 企业 的 事实 数据 (数字 实际 值 ), 对 象 (元 组 ) 
个 数 通 常 都 很 大 ,而 且 非 规范 化 程度 很 高 。 例 如 ,多 个 时 期 的 数据 可 能 会 出 现在 同一 个 表 
中 。“ 维 表 ” 中 存放 描述 性 数据 , 维 表 是 围绕 事实 表 建 立 的 较 小 的 表 。 

一 个 星 型 数据 模型 实例 如 图 2. 8 所 示 。 


订货 表 产品 表 
订单 号 产品 号 
订货 日 期 | 一 一 产品 名 称 
产品 目录 
客户 表 单价 
客户 号 
到 叶 
客户 地 址 
日 期 表 
销售 员 日 期 标识 
销售 员 号 日 
销售 员 姓 名 月 
城市 年 


图 2.8 星 型 数据 模型 实例 


事实 表 有 大 量 的 行 (元 组 ) ,然而 维 表 相对 来 说 有 和 较 少 的 行 (元 组 )。 星 型 模型 存储 情况 
如 图 2.9 所 示 。 

星 型 模型 存 取 数据 速度 快 ,主要 在 于 针对 各 个 维 做 了 大 量 的 预 处 理 , 如 按照 维 进行 预先 
的 统计 、 分 类 ,排序 等 ,再 如 按照 汽车 的 型 号 .颜色 .代理 商 进行 预先 的 销售 量 统计 ,做 报表 时 
速度 会 很 快 。 

星 型 结构 与 规范 化 的 关系 数据 库 设计 相 比较 ,存在 一 些 显 著 的 优点 : 

星 型 模型 是 非 规范 化 的 ,以 增加 存储 空间 代价 ,提高 了 多 维 数据 的 查询 速度 。 而 规范 化 
的 关系 数据 库 设 计 是 使 数据 的 宛 余 保 持 在 最 少 ,并 减少 当 数据 改变 时 系统 必须 执行 的 动作 。 

是 型 模型 也 有 缺点 : 

当 业务 问题 发 生变 化 ,原来 的 维 不 能 满足 要 求 时 ,需要 增加 新 的 维 。 由 于 事实 表 的 主键 
由 所 有 的 维 表 的 主键 组 成 ,因此 这 种 维 的 变化 带 来 数据 变化 将 是 非常 复杂 ,非常 耗 时 的 。 星 
型 模型 的 数据 元 余 量 很 大 。 


2.2.2 雪花 模型 


雪花 模型 是 对 星 型 模型 的 扩展 ,雪花 模型 对 星 型 模型 的 维 表 进 一 步 层 次 化 。 原 来 的 各 
二 辣 汪 


订货 表 
| 产品 表 
客户 表 
销售 员 表 地 区 表 
图 2.9 星 型 模型 数据 存储 情况 示意 图 


维 表 可 能 被 扩展 为 小 的 事实 表 , 形 成 一 些 局 部 的 “层次 ”区 域 。 它 的 优点 是 最 大 限度 地 减少 
数据 存储 量 , 以 及 把 较 小 的 维 表 联 合 在 一 起 来 改善 查询 性 能 。 

雪花 模型 增加 了 用 户 必须 处 理 的 表 的 数量 ,增加 了 某 些 查询 的 复杂 性 。 但 这 种 方式 可 
以 是 系统 更 进一步 专业 化 和 实用 化 ,同时 降低 了 系统 的 通用 程度 。 前 端 工具 将 用 户 的 需求 
转换 为 雪花 模型 的 物理 模式 ,完成 对 数据 的 查询 。 

在 雪花 模型 中 能 够 定义 多 重 “ 父 类 " 维 来 描述 某 些 特殊 的 维 表 。 比 如 ,在 时 间 维 上 增加 
了 月 维和 年 维 ,通过 查看 与 时 间 有 关 的 父 类 维 , 能 够 定义 特殊 的 时 间 统 计 信息 ,如 销售 月 统 
计 、 销 售 年 统计 等 。 

在 图 2. 8 所 示 的 星 型 模型 的 数据 中 ,对 “产品 表 ”“ 日 其 表 ”“ 地 区 表 ” 进 行 扩 展 形成 雪花 模 
型 数据 如 图 2. 10 所 示 。 使 用 数据 仓库 的 工具 完成 一 些 简单 的 二 维 或 三 维 查 询 , 既 能 够 满足 用 
户 对 复杂 的 数据 仓库 查询 的 需求 ,又 能 够 完成 一 些 简单 查询 功能 而 不 用 访问 过 多 的 数据 。 


2.2.3 星 网 模型 


每 个 数据 仓库 都 包含 了 多 个 星 型 模型 的 结构 。 每 一 个 星 型 模型 都 在 事实 表 中 保存 了 一 
些 指 标 ,为 特定 的 目的 服务 。 多 个 相关 的 星 型 模型 通过 相同 的 维 表 连接 起 来 形成 网 状 结构 ， 
称 为 星 网 模型 。 在 大 多 数 星 网 模型 中 .各 个 事实 表 共 享 的 维 表 是 时 间 维 。 

构造 星 网 模型 有 几 种 情况 : 有 的 是 增加 汇总 事实 表 和 衍生 的 维 表 形 成 星 网 模型 ,有 的 
是 构造 相关 的 事实 表 形 成 星 网 模型 。 

如 电话 公司 需要 建立 两 个 事实 表 , 一 个 事实 表 跟 踪 单 独 的 电话 事务 , 它 能 回答 “节假日 
电话 收益 与 工作 日 电话 收益 的 对 比 情况 ”等 类 问题 ;一 个 事实 表 累 计 用 户 电话 支出 情况 , 它 
能 回答 “ 某 个 用 户 在 某 段 时 间 内 的 电话 余额 * 等 类 问题 。 该 电话 公司 星 网 模型 实例 如 图 2. 11 
所 示 。 
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订货 产品 表 目 受 赤 


订单 号 产品 号 产品 目录 

订货 日 期 | 产品 名 称 | .| 下 对 
品目 录 

客户 表 单价 

客户 号 

| 

客户 地 址 
日 期 表 月 表 ”年 表 
日 期 标识 | /月 年 

销售 员 日 | E 

销售 员 号 月 

销售 员 姓 名 地 区 名 称 人 省 表 

城市 省 别 省 别 


图 2.10 雪花 数据 模型 实例 


地 区 键 
| 时 间 键 时 间 键 
用 户 刍 用 户 键 
事务 刍 状态 键 
地 区 键 电话 余额 
电话 费用 


事务 刍 状态 刍 
时 间 键 


图 2.11 电话 公司 星 网 模型 实例 


2.2.4， 第 三 范式 


范式 实际 上 是 传统 的 关系 数据 库 的 设计 理论 。 一 个 规范 化 的 关系 模式 应 该 准确 地 反映 
所 描述 的 数据 实体 ,避免 元 余 . 异 常 ( 插 和 人 异常 ,删除 异常 ,更 新 异常 ) 等 问题 。 

通常 按照 属性 间 依 赖 情况 来 区 分 关系 规范 化 的 程度 , 现 有 第 一 范式 到 第 五 范式 。 

第 三 范式 (3NF) 的 作用 是 解决 数据 宛 余 ,数据 被 分 割 成 多 个 实体 ,实体 在 数据 库 中 就 用 
表 来 表示 ,使 用 3NF 会 形成 比较 复杂 的 关系 表 , 但 它 适 合 于 操作 型 处 理 , 如 进行 update 和 
insert 等 操作 。 

数据 仓库 可 以 按 第 三 范式 进行 逻辑 数据 建 模 。 它 不 同 于 星 型 模型 之 处 在 于 ,把 事实 表 
和 维 表 的 属性 作为 一 个 实体 都 集中 在 同一 数据 库 表 中 ,或 分 成 多 个 实体 用 多 个 表 来 表示 ,每 
个 表 按 第 三 范式 组 织 数据 。 它 减少 了 维 表 中 的 键 和 不 必要 的 属性 。 

著名 的 NCR 数据 仓库 公司 采用 了 第 三 范式 的 逻辑 数据 模型 。 现 在 有 很 多 大 型 的 企业 
数据 仓库 系统 中 都 同时 采用 了 第 三 范式 和 星 型 模型 , 即 用 第 三 范式 来 描述 数据 仓库 系统 后 
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台 的 详细 数据 存储 关系 ,在 此 基础 上 ,再 根据 特定 的 分 析 需 求 建立 适当 的 星 型 模型 ,用 于 刷 
新 OLAP 服务 器 的 立方 体 (Cube) ,以 方便 前 端 数据 展现 和 预定 义 的 多 维 分 析 。 

星 型 模型 的 设计 模式 适用 于 决策 分 析 应 用 。 星 型 模型 与 第 三 范式 存储 的 数据 信息 是 一 
样 的 ,但 它 更 方便 用 户 理解 数据 ,更 适合 对 数据 的 多 维 查询 操作 。 

星 型 模型 在 进行 多 维 数据 分 析 时 ,在 不 超过 预定 义 的 维度 范围 内 ,速度 是 很 快 的 。 但 
是 ,如 果 超 出 了 预定 义 的 维度 ,增加 维度 将 是 很 困难 的 事情 。 

第 三 范式 对 于 海量 数据 (如 TB 级 ) 且 需要 处 理 大 量 的 动态 业务 分 析 时 ,就 显示 出 了 它 
的 优势 。 


2.3 数据 抽取 、 转 换 和 装载 


数据 仓库 的 数据 来 源 于 多 个 数据 源 ,主要 是 企业 内 部 数据 (用 于 企业 的 事务 处 理 , 也 称 
操作 型 数据 ) 存档 的 历史 数据 .企业 的 外 部 数据 (本 行业 的 统计 数据 以 及 竞争 者 的 市 场 占有 
率 数据 等 )。 这 些 数据 源 可 能 是 在 不 同 的 硬件 平台 上 ,使 用 不 同 的 操作 系统 。 源 数据 以 不 同 
的 格式 存放 在 不 同 的 数据 库 中 。 

数据 仓库 需要 将 这 些 源 数据 经 过 集成 的 过 程 ,存储 到 数据 仓库 的 数据 模型 中 。 具 体 来 
说 ,数据 仓库 的 数据 获取 需要 经 过 抽取 (Extraction) .转换 (Transform) .装载 (Load) 三 个 过 
程 , 即 ETL 过 程 。 

经 过 ETL 过 程 , 将 源 系统 中 的 数据 改造 成 有 用 的 信息 存储 到 数据 仓库 中 。 例 如 ,ETL 
过 程 将 统一 各 源 系统 中 数据 的 变量 名 称 , 转 换 和 集成 所 有 产品 的 销售 情况 数据 ,装载 到 数据 
仓库 的 销售 事实 表 和 相关 维 表 中 。 在 用 户 查 询 时 ,在 事实 表 中 提供 销售 数量 与 金额 的 同时 ， 
在 产品 维度 表 中 提供 产品 目录 ,在 商店 维度 中 提供 商店 名 单 , 在 时间 维 度 中 提供 日 期 。 这 种 
查询 方便 了 情况 对 比 和 决策 分 析 。 

ETL 过 程 在 开发 数据 仓库 时 , 占 去 70% 的 工作 量 。ETL 过 程 的 主要 步 又 概括 为 : 

(1) 决定 数据 仓库 中 需要 的 所 有 的 目标 数据 ; 

(2) 决定 所 有 的 数据 源 , 包 括 内 部 和 外 部 的 数据 源 ; 

(3) 准备 从 源 数据 到 目标 数据 的 数据 映射 关系 ; 

(4) 建立 全 面 的 数据 抽取 规则 ; 

(5) 决定 数据 转换 和 清洗 规则 ; 

(6) 为 综合 表 制 定 计划 ; 

(7) 组 织 数 据 缓冲 区 域 和 检测 工具 ; 

(8) 为 所 有 的 数据 装载 编写 规程 ; 

(9) 维度 表 的 抽取 、 转 换 和 装载 ; 

(10) 事实 表 的 抽取 、 转 换 和 装载 。 


2.3.1 数据 抽取 
数据 抽取 工作 包括 以 下 内 容 。 
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1. 确认 数据 源 


对 数据 源 的 确认 不 仅仅 是 对 数据 源 的 简单 确认 ,还 包括 检查 和 确定 数据 源 是 否 可 以 提 
供 数 据 仓 库 需 要 的 数据 。 该 项 工作 包括 : 

(1) 列 出 对 事实 表 的 每 一 个 数据 项 和 事实 ; 

(2) 列 出 每 一 个 维度 属性 ; 

(3) 对 于 每 个 目标 数据 项 , 找 出 源 数据 项 ; 

(4) 数据 仓库 中 一 个 数据 元 素 有 多 个 来 源 , 选 择 最 好 的 来 源 ; 

(5) 确认 一 个 目标 字段 的 多 个 源 字段 ,建立 合并 规则 ; 

(6) 确认 多 个 目标 字段 的 一 个 源 字段 ,建立 分 离 规 则 ; 

(7) 确定 默认 值 ; 

(8) 检查 缺失 值 的 源 数 据 。 


2. 数据 抽取 技术 


(1) 进行 数据 抽取 时 要 考虑 的 两 种 情况 

Q@ 当前 值 。 源 系统 中 存储 的 数据 都 代表 了 当前 时 刻 的 值 。 当 进行 商业 交易 时 ,这 些 数 
据 是 会 发 生变 化 的 。 

@ 周期 性 的 状态 。 这 类 数据 存储 的 是 每 次 发 生变 化 时 间 的 状态 。 例 如 ,对 于 每 一 保险 
索赔 ,都 要 经 过 索赔 开始 ,确认 ,评估 和 解决 等 步骤 ,都 要 考虑 有 了 时间 说 明 。 

在 建立 数据 仓库 时 ,从 某 一 特定 时 间 开 始 的 最 初 数据 必须 迁移 到 数据 仓库 中 ,以 使 数据 
仓库 开始 运转 ,这 是 初始 装载 。 在 初始 装载 之 后 ,数据 仓库 必须 保持 更 新 ,使 变化 的 历史 和 
状态 可 以 在 数据 仓库 中 反映 出 来 。 

(2) 两 类 数据 的 抽取 

Q@ 静态 数据 的 抽取 。 一 般 在 数据 仓库 的 初始 装载 时 抽取 的 是 静态 数据 , 它 代表 了 某 个 
时 刻 的 快照 。 

@ 修正 数据 的 抽取 ,也 称 为 追加 的 数据 抽取 。 修 正 数据 的 抽取 过 程 包括 特定 时 刻 抽 取 
的 数据 值 。 它 分 为 立即 型 数据 抽取 (实时 的 数据 抽取 ) 和 延缓 型 的 数据 抽取 。 

立即 型 数据 抽取 的 典型 方法 是 ,通过 读 取 交易 日 志 , 抽 取 所 有 相关 交易 记录 。 一 般 利用 
复制 技术 从 交易 日 志 中 捕获 交易 日 志 中 的 变化 数据 ,从 日 志 传 输 到 目标 文件 中 ,并 检验 数据 
变化 的 传输 情况 ,确保 复制 的 成 功 。 

延缓 型 数据 抽取 的 典型 方法 是 ,通过 读 取 源 记 录 中 包括 日 期 和 时 间 的 标记 ,抽取 更 新 源 
记录 的 数据 。 如 果 是 没有 时 间 标 记 的 旧 数 据 源 ,就 要 通过 “快照 对 比 技术 ”, 即 通过 比较 源 数 
据 的 两 个 快照 来 抽取 变化 的 数据 。 


2.3.2 数据 转换 


数据 抽取 过 程 中 得 到 的 数据 是 没有 经 过 加 工 的 数据 ,不 能 直接 应 用 于 数据 仓库 ,必须 经 
过 多 种 处 理 , 将 抽取 的 数据 转换 成 可 以 存储 在 数据 仓库 中 的 信息 。 
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1. 数据 转换 的 基本 功能 


(1) 选择 。 从 源 系 统 中 选择 整个 记录 或 者 部 分 记录 。 

(2) 分 离 /合并 。 对 源 系 统 中 的 记录 中 的 数据 进行 分 离 操作 或 者 对 很 多 源 系统 中 选择 
的 部 分 数据 进行 合并 操作 。 

(3) 转化 。 对 字段 的 转化 包括 对 源 系统 进行 标准 化 和 使 字段 对 用 户 来 说 是 可 用 和 可 理 
解 的 。 

(4) 汇总 。 数 据 仓 库 中 需要 保存 很 多 汇总 数据 。 这 需要 对 最 低 粒度 数据 进行 汇总 。 例 
如 ,将 零售 连锁 店 需要 将 每 一 个 收 款 机 的 每 一 笔 交易 的 销售 数据 汇总 为 每 天 每 个 商店 关于 
每 种 商品 的 销售 数据 。 

(5) 清晰 化 。 对 单个 字段 数据 进行 重新 分 配 和 简化 的 过 程 ,使 数据 仓库 更 便利 使 用 。 


2. 数据 转换 类 型 


(1) 格式 修正 。 包 括 数据 类 型 和 单个 字段 长 度 的 变化 。 例 如 在 源 系统 中 ,产品 类 型 通 
过 代码 和 名 称 在 数值 型 和 文本 类 型 中 表示 。 不 同 的 源 系统 将 会 有 所 不 同 ,对 这 些 数据 类 型 
进行 标准 化 ,改变 成 更 有 意义 的 文本 值 。 

(2) 字段 的 解码 。 对 所 有 了 临 汲 的 编码 进行 解码 。 将 它们 变 成 用 户 可 以 理解 的 值 。 例 
如 ,对 性 别 的 解码 ,在 源 系统 中 有 的 用 1 和 2 表示 ,有 的 用 M 和 下 分 别 表示 男性 和 女性 。 

(3) 计算 值 和 导出 值 。 在 数据 仓库 中 ,有 时 需要 与 销售 和 成 本 一 起 计算 出 利润 值 。 导 
出 字段 包括 平均 每 天 的 收 支 差 额 和 相关 比率 。 

(4) 单个 字段 的 分 离 。 在 旧 系 统 中 将 客户 名 称 、 地 址 存放 在 大 型 文本 字段 中 ; 姓 和 名 存 
放 在 一 个 字段 中 ;城市 .地 区 和 邮政 编码 存放 在 一 个 字段 中 。 在 数据 仓库 中 却 需要 将 姓名 和 
地 址 放 在 不 同 的 字段 中 ,便利 不 同 要 求 的 分 析 工 作 。 

(5) 信息 的 合并 。 例 如 ,一 个 产品 的 信息 可 能 从 不 同 的 数据 源 中 获得 ;产品 编码 和 产品 
名 从 一 个 数据 源 得 到 ,相关 包装 类 型 从 另 一 个 数据 源 中 得 到 ,成 本 数据 从 第 三 个 数据 源 中 得 
到 。 信 息 合并 是 产品 编码 、 产 品名 ,包装 类 型 和 成 本 的 有 机 组 合 ,是 一 个 新 的 实体 。 

(6) 特征 集合 转化 。 例 如 ,在 源 系统 中 数据 采用 EBCDIC 码 , 而 数据 仓库 数据 采用 
ASCII 码 ,这 就 需要 进行 代码 集合 的 转化 。 

(7) 度量 单位 的 转化 。 使 数据 具有 相同 的 标准 度量 单位 。 不 少 国家 有 自己 的 度量 单 
位 ,需要 在 数据 仓库 中 采用 标准 度量 单位 。 

(8) 日 期 /时 间 转 化 。 日 期 和 时 间 的 表示 应 该 转化 成 国际 标准 格式 。 例 如 2005 年 10 
月 15 日 在 美国 表示 成 10/15/2005, 而 在 英国 表示 为 15/10/2005。 标 准 格 式 为 15 
OCT 2005。 

(9) 汇总 。 这 种 类 型 的 转换 是 创建 数据 仓库 的 汇总 数据 。 汇 总 数据 适合 于 客观 战略 性 
的 查询 。 

(10) 关键 字 重 新 构造 。 在 源 系统 中 关键 字 可 能 包含 很 多 项 的 内 容 , 如 产品 编码 包括 仓 
库 代 码 、 销 售 区 域 . 产 品 编码 等 多 项 内 容 。 在 数据 仓库 中 ,关键 字 要 发 生变 化 ,转换 成 适合 于 
事实 表 和 维 表 的 普通 键 值 。 
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3. 数据 整合 和 合并 


数据 仓库 的 数据 是 从 很 多 不 同 的 分 散 的 源 系 统 中 的 源 数据 集成 起 来 的 。 各 源 系统 采用 
不 同 的 命名 方式 和 不 同 的 数据 标准 。 数 据 整 合 和 合并 是 将 相关 的 源 数据 组 合成 一 致 的 数据 
结构 , 装 和 人 数据 仓库 。 具 体 表现 为 : 

(1) 实体 识别 问题 

例如 ,一 个 数据 仓库 的 数据 来 源 于 三 个 不 同 的 客户 系统 : 一 个 是 订单 登记 系统 ,一 个 是 
客户 服务 支持 系统 ,一 个 是 市 场 系统 。 这 三 个 系统 中 对 相同 客户 可 能 分 别 有 不 同 的 键 码 。 

在 数据 仓库 中 ,需要 为 每 一 个 客户 建立 一 个 记录 ,这 就 必须 从 三 个 源 系统 中 得 到 同一 客 
户 的 数据 ,将 它们 组 合成 一 条 单独 的 记录 。 这 是 客户 实体 识别 问题 。 

进行 数据 转换 时 ,需要 让 用 户 参 与 这 个 过 程 ,帮助 对 实体 的 识别 ,并 设计 算法 ,将 三 个 系 
统 中 得 到 的 记录 进行 匹配 ,建立 统一 的 记录 集合 。 

(2) 多 数据 源 相同 属性 不 同 值 的 问题 

例如 ,假设 产品 的 单位 成 本 可 能 从 两 个 系统 中 得 到 ,在 特定 的 时 间 间 隔 内 对 成 本 值 进行 
计算 和 刷新 ,由 于 两 个 系统 中 得 到 的 成 本 存在 一 些 差 别 ,数据 仓库 应 该 从 哪个 系统 中 取得 成 
本 呢 ? 

有 三 种 方法 : 

@ 分 别 给 这 两 个 系统 不 同 的 优先 权 , 取 高 优先 权 的 成 本 数据 ; 

@ 根据 最 新 的 刷新 日 期 来 选择 其 中 一 个 源 系 统 的 成 本 数据 ; 

@ 根据 其 他 相关 字段 来 选择 合适 的 源 系 统 的 成 本 数据 。 


4. 如 何 实施 转换 


完成 数据 转换 工作 一 般 采 用 两 种 方式 : 自己 编写 程序 实现 数据 转换 和 使 用 转换 工具 。 

(1) 自己 编写 程序 实现 数据 转换 

在 明确 了 数据 转换 的 类 型 和 数据 整合 与 合并 的 内 容 以 后 ,一 般 具 有 编程 能 力 的 程序 员 
和 分 析 师 都 可 以 编写 数据 转换 程序 。 

这 种 方式 会 带 来 复杂 的 编程 和 测试 。 

(2) 使 用 转换 工具 

使 用 自动 的 工具 会 提高 效率 和 准确 性 。 当 确定 数据 转换 参数 和 规则 时 ,将 它 作为 元 数 
据 存储 在 工具 中 ,工具 就 能 按 元 数据 的 说 明 有 效 地 完成 数据 转换 工作 。 这 是 使 用 数据 转换 
工具 的 主要 优点 。 


2.3.3 数据 装载 


一 旦 创建 了 装载 映像 ,数据 转换 功能 就 结束 了 , 接 下 来 的 是 数据 装载 。 它 将 转换 好 的 数 
据 存储 到 数据 仓库 的 数据 库 中 去 。 
数据 装载 包括 数据 装载 方式 和 数据 装载 类 型 。 
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1. 数据 装载 方式 


(1) 基本 装载 

按照 装载 的 目标 表 , 将 转换 过 的 数据 输入 到 目标 表 中 去 。 若 目标 表 中 已 有 数据 ,装载 时 
会 先 清除 这 些 数据 ,再 装 入 新 数据 。 目 标 表 可 以 是 事实 表 或 维 表 。 

(2) 追加 

如 果 目 标 表 中 已 经 存在 数据 ,追加 过 程 在 保存 已 有 数据 的 基础 上 增加 输入 数据 。 当 一 
个 输入 数据 记录 与 已 经 存在 的 记录 重复 时 ,输入 记录 可 能 可 以 作为 副本 增加 进去 ,或 者 丢弃 
新 输入 数据 。 

(3) 破坏 性 合并 

当 输 入 数据 记录 的 主键 与 一 条 已 经 存在 的 记录 的 键 互相 匹配 时 ,用 新 输入 数据 更 新 目 
标记 录 数 据 。 如 果 输 入 记录 是 一 条 新 的 记录 ,没有 任何 与 之 匹配 的 现存 记录 ,那么 就 将 这 条 
输入 记录 添加 到 目标 表 中 。 

(4) 建设 性 合并 

当 输 入 记录 主键 与 已 有 记录 的 键 相 匹 配 时 ,保留 已 有 的 记录 ,增加 输入 的 记录 ,并 标记 
为 旧 记 录 的 替代 。 


2. 数据 装载 类 型 


数据 装载 类 型 包括 三 种 : 最 初 装载 . 增 量 装载 和 完全 刷新 。 

(1) 最 初 装载 

这 是 第 一 次 对 整个 数据 仓库 进行 装载 。 在 装载 工作 完成 以 后 ,建立 索引 。 

(2) 增 量 装载 

由 于 源 系 统 的 变化 ,数据 仓库 需要 装载 变化 的 数据 ,这 就 是 增 量 装载 。 

在 建设 性 合并 的 装载 方式 中 ,对 增加 的 输入 记录 中 标记 了 旧 记 录 的 替代 。 这 可 以 作为 
增 量 装载 的 方法 。 

当 已 装 入 的 记录 数据 必须 被 改正 后 的 数据 记录 取代 时 ,要 采用 破坏 性 合并 的 装载 方式 
作为 增 量 装载 的 方法 。 

(3) 完全 刷新 

这 种 类 型 的 数据 装载 用 于 周期 性 重 写 数据 仓库 。 有 时 ,也 可 能 对 一 些 特定 的 表 进行 刷新 。 

完成 刷新 与 初始 装载 比较 相似 。 不 同 点 在 于 在 完全 刷新 之 前 ,目标 表 中 已 经 存在 数据 。 


2.3.4 ETL 工具 
目前 市 场 上 有 三 类 ETL( 数 据 抽取 、 转 换 、 装 载 ) 工 具 。 
1. 数据 转换 引擎 


这 类 工具 根据 用 户 定义 的 时 间 间 隔 , 从 一 组 指定 的 源 系统 中 抽取 数据 ,执行 复杂 的 数据 
转换 ,将 结果 导入 到 目标 表 中 。 这 类 工具 使 用 户 选择 最 合适 的 数据 转换 方法 ,实施 完全 更 新 
和 增 量 装载 。 

这 类 工具 的 功能 涵盖 了 整个 ETL 过 程 。 
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2. 通过 复制 捕获 数据 


这 类 工具 中 大 部 分 使 用 由 数据 库 管 理 系统 维护 的 交易 日 志 。 在 交易 日 志 中 捕获 的 源 系 
统 的 变化 ,可 以 近乎 实时 地 在 数据 准备 区 域 被 复制 ,等待 进一步 的 处 理 。 


3. 代码 生成 器 


这 类 工具 根据 用 户 提供 的 数据 源 的 参数 和 目标 输出 以 及 商业 规则 ,能 自动 生成 数据 抽 
取 和 转换 程序 ,完成 ETL 过 程 。 

这 类 工具 的 自动 化 程度 较 高 。 

对 数据 仓库 的 数据 抽取 、 数 据 转 换 和 数据 装载 过 程 ,选择 ETL 工具 时 ,需要 考虑 以 下 
特征 : 

(1) 从 多 种 关系 型 数据 库 中 抽取 数据 ; 

(2) 从 旧 数 据 库 、 索 引文 件 和 平面 文件 中 抽取 数据 ; 

(3) 源 字 段 和 目标 字段 从 一 种 格式 向 另 一 种 格式 进行 数据 转换 ; 

(4) 执行 标准 转化 、 重 定义 键 和 结构 性 变化 ; 

(5) 提供 从 数据 源 到 目标 的 检查 轨迹 ; 

(6) 抽取 和 转换 中 商业 规则 的 应 用 ; 

(7) 将 源 系统 中 的 几 个 记录 组 合成 一 个 整合 的 目标 记录 ; 

(8) 元 数据 的 记录 和 管理 。 


2.4 元 数据 


2.4.1 元 数据 的 重要 性 


元 数据 在 数据 仓库 的 建造 .运行 中 有 着 极其 重要 的 作用 。 元 数据 描述 了 数据 仓库 的 数 
据 和 环境 ,遍及 数据 仓库 的 所 有 方面 ,是 整个 数据 仓库 的 核心 。 

元 数据 可 分 为 四 类 ,分 别 为 关于 数据 源 的 元 数据 ,关于 数据 模型 的 元 数据 ,关于 数据 仓 
库 映射 的 元 数据 和 关于 数据 仓库 使 用 的 元 数据 。 

下 面 是 元 数据 的 一 个 例子 , 它 定 义 了 数据 仓库 中 的 一 个 表 , 如 表 2. 1 所 示 。 


表 2.1 元 数据 例 
Table 逻 辑 名 顾 客 
定义 购买 商品 的 个 人 或 组 织 
物理 存储 DB. table( 数 据 库 表 ) 
建立 日 期 2008 年 1 月 15 日 
最 后 更 新 日 期 2010 年 1 月 20 日 
更 新 周期 每 月 
表 编 辑 程序 名 ABC( 程 序 名 ) 
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最 基本 的 元 数据 相当 于 数据 库 系 统 中 的 数据 字典 。 由 于 数据 仓库 与 数据 库 有 很 大 的 不 
同 , 因 此 元 数据 的 作用 远 不 是 数据 字典 所 能 相 比 的 。 元 数据 在 数据 仓库 中 有 着 举足轻重 的 
作用 , 它 不 仅 定义 了 数据 仓库 有 什么 ,指明 了 数据 仓库 中 数据 的 内 容 和 位 置 ,刻画 了 数据 的 
抽取 和 转换 规则 ,存储 了 与 数据 仓库 主题 有 关 的 各 种 商业 信息 ,而 且 整 个 数据 仓库 的 运行 都 
是 基于 元 数据 的 ,如 数据 的 修改 跟踪、 抽取 、 装 入、 综合 

有 了 两 类 人 会 用 到 元 数据 : 最 终 用 户 ( 包 括 商 业 分 析 员 ) 和 IT 人 员 ( 包 括 开发 人 员 和 管理 
人 员 ) 。 


1. 最 终 用 户 


数据 仓库 的 用 户 希 望 从 数据 仓库 获取 信息 来 回答 以 下 问题 : 
。 每 个 商店 各 种 产品 每 天 的 销售 数量 和 金额 是 按照 每 一 笔 交 易 , 还 是 按照 汇总 数据 
存储 ? 

。 销售 情况 能 够 按照 产品 促销、 商店 和 月 份 进行 分 析 吗 ? 

。 当月 的 销售 能 与 去 年 同期 销售 对 比 吗 ? 

。 销售 情况 能 与 预期 目标 进行 比较 吗 ? 

。 利润 率 是 如 何 计算 的 ?商业 规则 有 哪些 ? 

。 销售 区 域 是 如 何 划 定 的 ? 需要 分 析 的 两 个 区 域 包含 了 哪些 地 区 ? 

。 销售 情况 的 数据 从 何 而 来 ? 来 自 哪些 源 系 统 ? 

。 销售 数据 是 什么 时 候 的 ?这 些 数据 多 久 更 新 一 次 ? 

最 终 用 户 需 要 的 元 数据 有 数据 内 容 、 汇 总 数据 、 商 业 维 度 、 商 业 指标 、 浏 览 路 径 、 源 系统 、 
外 部 数据 、 数 据 转换 规则 、 最 后 更 新 日 期 .数据 装载 和 更 新 周期 .查询 模板 报表 格式 、 预 定义 
查询 和 报表 、OLAP 数据 等 。 

最 终 用 户 需 要 的 元 数据 也 称 为 商业 元 数据 , 它 像 一 幅 公 路 地 图 ,显示 了 信息 所 在 的 地 
方 ,以 及 如 何 到 达 那 个 地 方 。 最 终 用 户 通过 商业 元 数据 的 引导 ,能 够 有 效 地 从 数据 仓库 中 获 
得 所 需要 的 信息 ,提高 分 析 效 果 。 


生火 员 


元 数据 对 数据 仓库 的 开发 者 和 管理 者 来 说 都 很 重要 。 从 开始 的 数据 抽取 、 数 据 转换 、 数 
据 集成 ,数据 清洗 、 数 据 准 备 、 数 据 存 储 ,到 查询 及 报表 设计 、OLAP 设计 以 及 运行 时 的 管理 
工作 ,IT 人 员 必 须 能 够 得 到 合适 的 元 数据 。 

IT 人 员 需 要 的 元 数据 有 : 源 数据 结构 、 源 平台 数据 抽 取 方 法 、 外 部 数据 、 数 据 转 换 规 
则 .数据 清 洗 规 则 、 准 备 区 域 结构 、 维 度 模 型 .初始 装载 、 增 量 装载 .数据 汇总 .OLAP 系统 、 
Web 访问 、 查 询 和 报表 设计 。 

IT 人 员 需 要 的 元 数据 也 称 为 技术 元 数据 ,为 负责 开发 .管理 和 维护 数据 仓库 服务 。 技 
术 元 数据 对 IT 人 员 来 说 ,就 像 一 个 支持 技术 工作 的 指南 。 


2.4.2 关于 数据 源 的 元 数据 


它 是 现 有 的 业务 系统 的 数据 源 的 描述 信息 。 这 类 元 数据 是 对 不 同 平台 上 的 数据 源 的 物 
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理 结构 和 含义 的 描述 。 具 体 为 : 
(1) 数据 源 中 所 有 物理 数据 结构 ,包括 所 有 的 数据 项 及 数据 类 型 。 
(2) 所 有 数据 项 的 业务 定义 。 
(3) 每 个 数据 项 更 新 的 频率 ,以 及 由 谁 或 哪个 过 程 更 新 的 说 明 。 
(4) 每 个 数据 项 的 有 效 值 。 
(5) 其 他 系统 中 具有 相同 业务 含义 的 数据 项 的 清单 。 


2.4.3 关于 数据 模型 的 元 数据 


这 组 元 数据 描述 了 数据 仓库 中 有 什么 数据 以 及 数据 之 间 的 关系 ,它们 是 管理 和 使 用 数 
据 仓 库 的 基础 。 这 种 的 元 数据 可 以 支持 用 户 从 数据 仓库 中 获取 数据 。 用 户 可 以 提出 需要 哪 
些 表 ,系统 从 中 选 一 个 表 , 并 得 到 表 之 间 的 关系 。 通 过 关系 新 表 , 重 复 该 过 程 。 用 户 能 够 得 
到 希望 的 数据 。 

描述 数据 仓库 中 的 数据 及 数据 之 间 的 各 种 复杂 关系 ,元 数据 要 定义 以 下 内 容 : 

(1) 1/O 对 象 : 支持 数据 仓库 1/O 操作 的 各 种 对 象 。 元 数据 要 描述 该 1/O 对象 的 定义 、 
类 型 ,状态 .存档 (刷新 ) 周 期 。 

(2) 关系 : 两 个 1/O 对 象 之 间 关 联 。 这 种 关联 有 三 种 类 型 : 一 对 一 、 一 对 多 和 多 对 多 。 

(3) 关系 成 员 : 描述 每 个 关系 中 两 个 1/O 对 象 的 具体 角色 (在 一 对 多 中 是 父亲 还 是 儿 
子 )、 关 系 度 (一 对 一 还 是 一 对 多 ) 及 约束 条 件 ( 必 须 满足 还 是 可 选 关 系 )。 

(4) 关系 关键 字 : 描述 两 个 1/0O 对 象 的 是 如 何 建立 关联 的 。 每 个 关系 都 是 通过 1/O 对 
象 的 关键 字 来 建立 的 ,元 数据 要 指明 建立 每 个 关系 的 相应 对 象 的 关键 字 。 

这 组 元 数据 定义 的 数据 之 间 的 关系 可 以 用 图 2. 12 来 表示 。 


lO 对象 | 一 一 关系 成 员 人 一 | 关系 | 


se. 


关系 关键 字 表示 一 对 多 ,下 同 
图 2.12 数据 模型 的 元 数据 内 容 


例如 ,雇员 与 技能 之 间 的 关系 如 图 2. 13 所 示 。 


Employee ES Skill 


ENo 
ENo 四 S Code 呈 S_Code 
. . 


图 2.13 雇员 与 技能 之 间 的 关系 图 
在 数据 仓库 中 元 数据 描述 该 关系 如 图 2. 14 所 示 。 
2.4.4 关于 数据 仓库 映射 的 元 数据 


这 类 元 数据 是 数据 源 与 数据 仓库 数据 之 间 的 映射 。 
当 数据 源 中 的 一 个 数据 项 与 数据 仓库 建立 了 映射 关系 时 ,就 应 该 记 下 这 些 数据 项 发 生 
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IO 对 象 关系 成 员 关系 


IO Object ID 。 R_ID IO ID 虹 RID 
Employee 12 Employee 12 
ES 12 ES 13 
Skill | ES 
13 Skill 
J 关系 关键 字 
RID IO ID |Field ID 
12 Employee ENo 
12 ES E No 
13 ES S Code 
13 Skill S Code 


图 2.14 雇员 与 技能 关系 的 元 数据 内 容 


的 任何 变换 或 变动 , 即 用 元 数据 反映 数据 仓库 中 的 数据 项 是 从 哪个 特定 的 数据 源 抽取 的 ,经 
过 了 哪些 转换 、 变 换 和 装载 过 程 。 

从 源 系 统 的 数据 到 数据 仓库 中 的 目标 数据 的 转移 是 一 项 复杂 的 工作 ,其 工作 量 占 整 个 
数据 仓库 开发 的 70%。 这 里 主要 涉及 两 个 问题 。 


1. 抽取 工作 之 间 的 复杂 关系 
一 个 数据 的 抽取 要 经 过 许多 步骤 ,如 图 2.15 所 示 。 


( 源 数据 小 获取 [= 过 滤 六 | 验证 | 融合 [| 综合 [| 装载 - 存档 -| 目标 (0 


图 2.15 数据 抽取 工作 的 步 又 


(1) 获取 : 从 外 部 或 内 部 源 数 据 系统 获取 对 决策 支持 系统 用 户 有 用 的 数据 。 
(2) 过 滤 : 过 滤 掉 不 需要 的 内 容 ( 如 上 次 抽取 后 一 直 没 改变 的 数据 ) 。 

(3) 验证 : 从 用 户 的 角度 验证 数据 的 质量 。 

(4) 融合 : 把 本 次 抽取 的 数据 与 数据 仓库 中 的 数据 进行 融合 。 

(5) 综合 : 对 数据 进行 综合 ,生成 综合 级 数据 。 

(6) 装载 : 把 新 数据 装 入 到 数据 仓库 中 。 

(7) 存档 : 把 新 装 入 的 数据 单独 存 为 一 个 文件 ,以 便 减 少 更 新 操作 的 数据 量 。 


2. 源 数据 与 目标 数据 之 间 的 映射 


源 数据 与 目标 数据 之 间 是 一 种 复杂 的 多 对 多 关系 。 

元 数据 要 能 够 描述 这 些 限制 所 带 来 的 一 系列 问题 。 这 组 元 数据 要 定义 的 内 容 如 下 
所 示 。 

(1) 抽取 工作 : 描述 每 一 个 抽取 工作 ,并 为 每 一 个 抽取 工作 标识 其 源 系统 ,明确 其 刷新 
周期 (两 次 抽取 之 间 的 间隔 )。 

(2) 抽取 工作 步骤 : 定义 抽取 工作 中 的 步骤 包括 说 明 每 一 步 的 类 型 (如 过 滤 、 验 证 等 )。 

(3) 抽取 表 映 射 : 为 每 一 个 抽取 步 又 建立 输入 文件 / 表 与 输出 文件 / 表 之 间 的 关联 。 
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(4) 抽取 属性 映射 : 为 每 一 个 抽取 步骤 建立 输入 表 ( 文 件 ) 的 属性 与 输出 表 ( 文 件 ) 的 属 
性 之 间 的 关联 。 
(5) 记录 筛选 规则 : 在 抽取 工作 的 每 一 步骤 中 进行 记录 的 筛选 。 如 例子 ， 


下 Record.Last Update Date> '2009 11 01'CR Record.Create Date> '2009 11 01' 
THEN Reserve( 保 留 ) USE ”Delete 人 删除 ) 


这 类 元 数据 要 定义 的 数据 之 间 的 关系 可 表示 如 图 2. 16 所 示 。 
抽取 工作 [Yo 对象 “上 人 域 分 配 
l l 1 
抽取 工作 步 |- 一 抽取 表 映 射 | 一 抽取 属性 映射 


记录 筛选 规则 
图 2.16 数据 映射 的 元 数据 内 容 


这 类 元 数据 可 以 用 来 生成 源 代码 ,以 完成 数据 的 转换 工作 , 即 完成 由 操作 型 数据 转换 成 
面向 主题 的 数据 仓库 的 数据 。 元 数据 中 的 抽取 表 映 射 和 抽取 属性 映射 定义 了 进行 实际 抽取 
转换 工作 的 过 程 。 数 据 仓 库 管理 核心 利用 该 类 元 数据 所 定义 的 抽取 过 程 生成 某 种 语言 的 源 
代码 (如 VC) ,然后 编译 成 可 执行 的 程序 以 完成 数据 的 抽取 工作 。 


2.4.5 关于 数据 仓库 使 用 的 元 数据 


这 类 元 数据 是 对 数据 仓库 中 信息 使 用 情况 的 描述 。 
数据 仓库 的 用 户 最 关心 的 是 两 类 元 数据 : 
(1) 元 数据 告诉 数据 仓库 中 有 什么 数据 ,它们 从 哪里 来 , 即 如 何 按 主题 查看 数据 仓库 的 
内 容 。 
(2) 元 数据 提供 已 有 的 可 重复 利用 的 查询 语言 信息 。 如 果 某 个 查询 能 够 满足 他 们 的 需 
求 ,或 者 与 他 们 的 愿望 相似 ,他 们 就 可 以 再 次 使 用 这 些 查 询 而 不 必 从 头 开始 编程 。 

更 高 级 的 形式 是 用 户 通 过 选择 他 们 要 提出 的 业务 问题 类 型 来 访问 现 有 的 查询 ,得 到 相 
似 查询 的 元 数据 。 

关于 数据 仓库 使 用 的 元 数据 能 帮助 用 户 到 数据 仓库 查询 所 需要 的 信息 ,用 于 解决 企业 
问题 。 


习 题 2 


1. 画 出 数据 仓库 结构 图 ,说 明 各 部 分 内 容 。 
2. 说 明 数 据 仓 库 结 构图 中 包含 轻 度 综合 层 与 高 度 综合 数据 层 的 作用 。 这 些 数 据 为 什 
么 不 是 临时 计算 出 来 的 ? 
3. 说 明 数 据 集 市 与 数据 仓库 的 区 别 和 联系 。 
4. 说 明 数 据 集 市 的 特点 。 
5. 画 出 数据 集 市 的 两 种 结构 图 ,说 明 它 们 的 不 同 点 。 
和 


6. 画 出 数据 仓库 系统 结构 图 ,说明 把 仓库 管理 和 分 析 工 具 作为 数据 仓库 系统 的 两 个 独 
立 组 成 部 分 的 原因 。 

7. 说 明 仓库 管理 包含 的 具体 内 容 。 

8. 说 明 分 析 工 具 包含 的 具体 内 容 。 

9. 画 出 数据 仓库 的 运行 结构 图 ,说 明 三 层 C/S 结构 与 两 层 C/S 结构 的 不 同 点 。 


10; 
Ln 
12. 
13. 
14. 
15; 
16. 
1 
18. 
19. 
20. 
21, 
22. 
23, 
24. 
25. 
26. 
27. 
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数据 仓库 的 逻辑 数据 模型 有 哪些 ? 

数据 模型 与 数学 模型 有 什么 区 别 ? (提示 : 数学 模型 是 指 运筹 学 中 研究 的 模型 。) 
说 明星 型 模型 有 什么 好 处 。 

说 明 数据 仓库 的 数据 模型 为 什么 含 时 间 维 数据 。 

说 明 雪 花 模 型 与 星 网 模型 的 不 同 点 。 

第 三 范式 数据 模型 与 星 型 模型 有 什么 不 同 ? 

说 明 第 三 范式 与 星 型 模型 的 优 缺 点 。 

简单 说 明 ETL 过 程 的 主要 步骤 。 

说 明 数 据 抽取 工作 的 内 容 。 

说 明 数据 转换 的 基本 功能 。 

数据 转换 有 哪些 类 型 ? 

数据 装载 方式 与 类 型 有 哪些 ? 

说 明 数 据 库 中 的 元 数据 以 及 数据 仓库 中 元 数据 的 不 同 。 
什么 是 关于 数据 源 的 元 数据 ? 

什么 是 关于 数据 模型 的 元 数据 ? 

什么 是 关于 数据 仓库 映射 的 元 数据 ? 

什么 是 关于 数据 仓库 使 用 的 元 数据 ? 

数据 仓库 中 的 元 数据 是 如 何 发 挥 作用 的 ? 


第 3 浊 ” 吹 计 分 析 站 理 


在 数据 仓库 系统 中 ,联机 分 析 处 理 (OLAP) 是 重要 的 数据 分 析 工 具 。OLAP 的 基本 思 
想 是 企业 的 决策 者 应 能 灵活 地 ,从 多 方面 和 多 角度 以 多 维 的 形式 来 观察 企业 的 状态 和 了 解 
企业 的 变化 。 


3.1 OLAP 概念 


在 信息 爆炸 的 时 代 , 信 息 过 量 几 乎 成 为 人 人 都 需要 面 对 的 问题 。 如 何 才能 不 被 信息 的 
汪洋 大 海 所 淹没 ,从 中 及 时 发 现 有 用 的 知识 或 者 规律 ,提高 信息 利用 率 呢 ?” 要 想 使 数据 真正 
成 为 一 个 决策 资源 ,只 有 充分 利用 它 为 一 个 组 织 的 业务 决策 和 战略 发 展 服务 才 行 ,否则 大 量 
的 数据 可 能 会 成 为 包 裕 ,甚至 成 为 垃圾 。OLAP 是 解决 这 类 问题 最 有 力 的 工具 之 一 。 

OLAP 专门 设计 用 于 支持 复杂 的 分 析 操 作 ,侧重 对 分 析 人 员 和 高 层 管理 人 员 的 决策 支 
持 , 可 以 应 分 析 人 员 的 要 求 , 快 速 .灵活 地 进行 大 数据 量 的 复杂 查询 处 理 , 并 且 以 一 种 直观 易 
懂 的 形式 将 查询 结果 提供 给 决策 制定 者 ,以便 他 们 准确 掌握 企业 (公司 ) 的 经 营 状 况 ,了解 市 
场 需求 ,制定 正确 方案 ,增加 效益 。OLAP 软件 以 它 先 进 的 分 析 功 能 和 以 多 维 形 式 提 供 数 
据 的 能 力 , 正 作为 一 种 支持 企业 关键 商业 决策 的 解决 方案 而 迅速 崛起 。 


3.1.1 OLAP 的 定义 


在 决策 活动 中 ,决策 人 员 需 要 的 数据 往往 不 是 单一 指标 的 单一 的 值 ,他 们 和 希望 能 够 从 多 
个 角度 观察 某 个 指标 或 者 某 个 值 ,或 者 找 出 这 些 指 标 之 间 的 关系 。 比 如 ,决策 者 可 能 想 知 道 
“东北 地 区 和 西南 地 区 今年 一 季度 和 去 年 一 季度 在 销售 总 额 上 的 对 比 情况 ,并 且 销 售 额 按 
10 万 一 50 万 .50 万 一 100 万 ,以 及 100 万 以 上 分 组 ”>。 上 面 的 问题 是 比较 有 代表 性 的 ,决策 
所 需 数 据 总 是 与 一 些 统计 指标 如 销售 总 额 、 观 察 角 度 ( 如 销售 区 域 .时 间 ) 和 不 同 级 别 的 统计 
有 关 , 可 以 将 这 些 观察 数据 的 角度 称 之 为 维 。 可 以 说 决策 数据 是 多 维 数据 ,多 维 数据 分 析 是 
决策 分 析 的 主要 内 容 。 但 传统 的 关系 数据 库 系 统 及 其 查询 工具 对 于 管理 和 应 用 这 样 复杂 的 
数据 显得 力不从心 。 

OLAP 是 在 OLTP 的 基础 上 发 展 起 来 的 ,OLTP 是 以 数据 库 为 基础 的 , 面 对 的 是 操作 
人 员 和 低层 管理 人 员 ,对 基本 数据 的 查询 和 增 、 删 \ 改 等 进行 处 理 。 而 OLAP 是 以 数据 仓库 
为 基础 的 数据 分 析 处 理 。 它 有 两 个 特点 : 一 是 在 线性 (On Line) ,体现 为 对 用 户 请 求 的 快速 
响应 和 交互 式 操 作 , 它 的 实现 是 由 客户 机 /服务 器 这 种 体系 结构 在 网 络 环境 上 完成 的 ;二 是 
多 维 分 析 (Multi-dimension Analysis) ,这 也 是 OLAP 的 核心 所 在 。 

OLAP 超越 了 一 般 查 询 和 报表 的 功能 , 它 是 建立 在 一 般 事 务 操作 之 上 的 另外 一 种 逻辑 
步骤 ,因此 , 它 的 决策 支持 能 力 更 强 。 在 多 维 数据 环境 中 ,OLAP 为 终端 用 户 提 供 了 复杂 的 
数据 分 析 功 能 。 通 过 OLAP, 高 层 管理 人 员 能 够 通过 浏览 ,分 析 数 据 去 发 现 数据 的 变化 趋 
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势 ,特征 以 及 一 些 潜在 的 信息 ,从 而 更 好 地 帮助 他 们 了 解 商业 活动 的 变化 。 目 前 ,普遍 为 人 
们 所 接受 的 OLAP 的 定义 有 两 种 。 


1. OLAP 理事 会 给 出 的 定义 


联机 分 析 处 理 (OLAP) 是 一 种 软件 技术 , 它 使 分 析 人 员 能 够 迅速 .一致 .交互 地 从 各 个 
方面 观察 信息 ,以 达到 深入 理解 数据 的 目的 。 这 些 信 息 是 从 原始 数据 转换 过 来 的 ,按照 用 户 
的 理解 , 它 反映 了 企业 真实 的 方方面面 。 

企业 的 用 户 对 企业 的 观察 自然 是 多 维 的 。 例 如 销售 ,不 仅 可 从 生产 这 方面 看 ,还 与 地 
点 ,时间 等 有 关 , 这 就 是 为 什么 要 求 OLAP 模型 是 多 维 的 原因 。 这 种 多 维 用 户 视 图 通过 一 
种 更 为 直观 的 分 析 模 型 进行 设计 和 分 析 。 

OLAP 的 大 部 分 策略 都 是 将 关系 型 的 或 普通 的 数据 进行 多 维 数据 存储 ,以 便于 进行 分 
析 , 从 而 达到 联机 分 析 处 理 的 目的 。 这 种 多 维 数据 库 也 被 看 做 超 立 方 体 , 沿 着 多 个 维度 存储 
数据 ,为 用 户 沿 事物 的 任意 的 多 个 维度 方便 地 分 析 数 据 。 


2. OLAP 简单 定义 


近来 , 随 着 人 们 对 OLAP 理解 的 不 断 深 入 ,有些 学 者 提出 了 更 为 简要 的 定义 , 即 联 机 分 
析 处 理 是 共享 多 维 信 息 的 快速 分 析 (Fast Analysis of Shared Multidimensional Information) , 它 
体现 了 四 个 特征 : 

(1) 快速 性 (fast) : 用 户 对 OLAP 的 快速 反应 能 力 有 很 高 的 要 求 。 系 统 应 能 在 5s 内 对 
用 户 的 大 部 分 分 析 要 求 做 出 反应 ,如 果 终 端 用 户 在 30s 内 没有 得 到 系统 的 响应 , 则 会 变 得 不 
耐烦 ,改变 分 析 主 线索 ,影响 分 析 的 质量 。 

(2) 可 分 析 性 (analysis): OLAP 系统 应 能 处 理 与 应 用 有 关 的 任何 逻辑 分 析 和 统计 分 
析 。 尽 管 系统 需要 一 些 事先 的 编程 ,但 并 不 意味 着 系统 事先 已 将 所 有 的 应 用 都 定义 好 了 。 

(3) 多 维 性 (multidimensional) : 多 维 性 是 OLAP 的 特点 。 系 统 必须 提供 对 数据 分 析 
的 多 维 视图 和 分 析 , 包 括 对 层次 维和 多 重 层次 维 的 完全 支持 。 

(4) 信息 性 (information) : 不 论 数据 量 有 多 大 ,也 不 管 数据 存储 在 何 处 ,OLAP 系统 都 
应 能 及 时 获得 信息 ,并 且 管 理 大 容量 的 信息 。 

用 于 实现 OLAP 的 技术 主要 包括 网 络 环境 上 客户 机 /服务 器 体系 结构 、 时 间 序 列 分 析 、 
面向 对 象 、 并 行 处 理 、 数 据 存 储 优化 等 。 


3.1.2 OLAP 准则 


1985 年 以 来 ,关系 数据 库 需 求 始终 受到 E. F. Codd 提出 的 12 条 规则 的 影响 。1993 年 ， 
E. F. Codd 在 Providing OLAP to User Analysts 一 书 中 又 提出 了 有 关 OLAP 的 十 二 条 准 
则 ,用 来 评价 分 析 处 理工 具 , 这 也 是 他 继 关 系数 据 库 和 分 布 式 数据 库 提出 的 两 个 “十 二 条 准 
则 ”后 提出 的 第 三 个 “十 二 条 准则 ”。 由 于 这 些 规则 最 初 是 对 客户 研究 的 结果 ,所 以 业界 对 这 
个 十 二 条 准则 襄 贬 不 一 。 但 其 主要 方面 ,如 多 维 数据 分 析 、 客 户 / 服 务 器 结构 .多 用 户 支持 及 
一 致 的 报表 性 能 等 方面 还 是 得 到 了 大 多 数 人 的 认可 。E. F. Codd 在 文中 系统 曾 述 了 有 关 
OLAP 产品 及 其 所 依赖 的 数据 分 析 模 型 的 一 系列 概念 及 衡量 标准 ,这 对 OLAP 产品 的 辨别 
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及 后 来 的 发 展 方向 的 确立 都 产生 了 重要 的 作用 。 如 今 , 这 十 二 条 规则 也 成 为 大 家 定义 
OLAP 的 主要 依据 ,被 认为 是 OLAP 产品 应 该 具备 的 特征 。 如 今 OLAP 的 概念 已 经 在 商业 
数据 库 领域 得 以 广泛 使 用 ,Codd 提出 的 OLAP 准则 如 下 。 


1. 多 维 概念 视图 


从 用 户 分 析 员 的 角度 来 看 ,用 户 通常 从 多 维 角度 来 看 待 企业 ,企业 决策 分 析 的 目的 不 
同 ,决定 了 分 析 和 衡量 企业 的 数据 总 是 从 不 同 的 角度 来 进行 的 ,所 以 企业 数据 空间 本 身 就 是 
多 维 的 。 因 此 OLAP 的 概念 模型 也 应 是 多 维 的 。 用 户 可 以 简单 .直接 地 操作 这 些 多 维 数据 
模型 。 例 如 ,用 户 可 以 对 多 维 数据 模型 进行 切片 、 切 块 .改变 坐标 或 旋转 模式 中 的 联合 (概括 
和 聚集 ) 数 据 路 径 。 


2. 透明 性 


透明 性 原则 包括 两 层 含义 : 首先 , OLAP 在 体系 结构 中 的 位 置 对 用 户 是 透明 的 。 
OLAP 应 处 于 一 个 真正 的 开放 系统 结构 中 , 它 可 使 分 析 工 具 艇 入 用 户 所 需 的 任何 位 置 ,而 
不 会 对 分 析 工 具 的 使 用 产生 副作用 ,同时 必须 保证 OLAP 工具 的 嵌入 不 会 引入 和 增加 任何 
复杂 性 。 其 次 ,OLAP 的 数据 源 对 用 户 也 是 透明 的 。 用 户 只 需 使 用 熟悉 的 查询 工具 进行 查 
询 ,而 不 必 关 心 OLAP 工具 获取 的 数据 是 来 自 于 同 质 还 是 异 质 的 数据 源 。 


3. 可 访问 性 


OLAP 系统 不 仅 能 进行 开放 的 存 取 , 而 且 还 提供 高 效 的 存 取 策略 。OLAP 用 户 分 析 员 
不 仅 能 在 公共 概念 视图 的 基础 上 对 关系 数据 库 中 的 数据 进行 分 析 , 而 且 还 可 以 在 公共 分 析 
模型 的 基础 上 对 关系 数据 库 、 数 据 仓库 的 数据 进行 分 析 。 要 实现 这 些 功能 ,就 要 求 OLAP 
能 将 自己 的 概念 视图 映射 到 异 质 的 数据 存储 上 ,并 可 访问 数据 ,还 能 进行 所 需 的 转换 以 便 给 
出 单一 的 .连贯 的 .一 致 的 用 户 视图 。 另 外 必须 说 明 的 一 点 就 是 ,物理 数据 来 源 于 何 种 系统 ， 
这 对 用 户 来 说 应 是 透明 的 ,进行 处 理 的 是 OLAP 工具 而 不 是 用 户 分 析 员 。 这 是 提供 OLAP 
工具 透明 性 准则 的 基础 之 一 。 

OLAP 系统 应 该 提供 高 效 的 存储 策略 ,使 系统 只 存 取 与 指定 分 析 有 关 的 数据 ,避免 多 
余 的 数据 存 取 。 


4. 一 致 稳定 的 报表 性 能 


报表 操作 不 应 随 维 数 增加 而 削弱 , 即 当 数据 维 数 和 数据 的 综合 层次 增加 时 ,提供 给 最 终 
分 析 员 的 报表 能 力 和 响应 速度 不 应 该 有 明显 的 降低 ,这 对 维护 OLAP 产品 的 简易 性 至 关 重 
要 。 即 便 是 企业 模型 改变 ,关键 数据 的 计算 方法 也 无 需 更 改 。 也 就 是 说 ,OLAP 系统 的 数 
据 模 型 对 企业 模型 应 该 具有 “和 鲁 棒 性 。 只 有 做 到 这 一 点 ,OLAP 工具 提供 的 数据 报表 和 所 
做 的 预测 分 析 的 结果 才 是 可 信 的 。 


5. 客户 /服务 器 体系 结构 


OLAP 是 建立 在 客户 /服务 器 体系 结构 之 上 的 。 这 要 求 它 的 多 维 数据 库 服务 器 能 够 被 
.| 


不 同 的 应 用 和 工具 所 访问 ,服务 器 端 以 最 小 的 代价 完成 同 多 种 服务 器 之 间 的 挂 接任 务 ,智能 
化 服务 器 必须 具有 在 不 同 的 逻辑 的 和 物理 的 数据 库 间 映射 并 组 合 数据 的 能 力 , 还 应 构造 通 
用 的 、 概 念 的 ` 逻 辑 的 和 物理 的 模式 ,从 而 保证 透明 性 和 建立 统一 的 公共 概念 模式 、. 录 辑 模式 
和 物理 模式 。 客 户 端 负 责 应 用 逻辑 及 用 户 界面 。 


6. 维 的 等 同性 


每 一 数据 维 在 其 结构 和 操作 功能 上 必须 等 价 。 可 能 存在 适用 于 所 有 维 的 逻辑 结构 , 提 
供给 某 一 维 的 任何 功能 也 应 提供 给 其 他 维 , 即 系统 可 以 将 附加 的 操作 能 力 授 给 所 选 维 , 但 必 
须 保证 该 操作 能 力 可 以 授 给 任意 的 其 他 维 , 即 要 求 维 上 的 操作 是 公共 的 。 该 准则 实际 上 是 
对 维 的 基本 结构 和 维 上 的 操作 的 要 求 。 


7. 动态 的 稀疏 矩阵 处 理 


OLAP 服务 器 的 物理 结构 应 完全 适用 于 特定 的 分 析 模式 ,创建 和 加 载 此 种 模式 是 为 了 
提供 优化 的 稀 朴 和 矩阵 处 理 。 当 存在 稀 朴 矩阵 时 ,OLAP 服务 器 应 能 推 知 数据 是 如 何 分 布 
的 ,以 及 怎样 存储 才 更 有 效 。 

该 准则 包括 两 层 含义 : 第 一 ,对 任意 给 定 的 稀 朴 矩阵 ,存在 一 个 最 优 的 物理 视图 ,该 视 
图 能 提供 最 大 的 内 存 效率 和 矩阵 处 理 能 力 , 稀 疏 度 是 数据 分 布 的 一 个 特征 ,不 能 适应 数据 集 
合 的 数据 分 布 ,将 会 导致 快速 .高效 操作 的 失败 。 第 二 ,OLAP 工具 的 基本 物理 数据 单元 可 
配置 给 可 能 出 现 的 维 的 子 集 。 同 时 ,还 要 提供 动态 可 变 的 访问 方法 并 包含 多 种 存 取 机 制 , 例 
如 : 直接 计算 地 址 、B 树 索引 、 导 出 算法 、 哈 希 算法 或 这 些 技术 的 最 佳 组 合 。 访 问 速度 不 会 
因数 据 维 的 多 少数 据 集 的 大 小 而 变化 。 

如 果 分 析 要 求 较为 单一 和 固定 ,那么 确实 有 可 能 针对 它 建立 起 一 个 最 优 的 、 静 态 的 、 具 
有 固定 维 数 的 物理 模式 。 但 实际 上 ,分 析 需 求 的 特点 就 是 具有 不 确定 性 ,所 以 建立 静态 模式 
是 不 现实 的 ,因此 OLAP 工具 必须 使 得 模型 的 物理 模式 充分 适应 指定 的 维 数 ,尤其 是 特定 
模型 的 数据 分 布 。 


8. 多 用 户 支持 能 力 


当 多 个 用 户 在 同一 分 析 模 式 上 并 行 工作 ,或 是 在 同一 企业 数据 上 建立 不 同 的 分 析 模 型 
时 ,OLAP 工具 应 提供 并 发 访问 .数据 完整 性 及 安全 性 等 功能 。 

实际 上 ,OLAP 工具 必须 支持 多 用 户 也 是 为 了 适合 数据 分 析 工 作 的 特点 。 应 该 鼓励 以 
工作 组 的 形式 来 使 用 OLAP 工具 ,这 样 多 个 用 户 就 可 以 交换 各 自 的 想法 和 分 析 结 果 。 


9. 非 限定 的 跨 维 操作 


在 多 维 数据 分 析 中 ,所 有 维 的 生成 和 处 理 都 是 平等 的 。OLAP 工具 应 能 处 理 维 间 相关 
计算 。 如 果 计 算 时 需要 按 语言 定义 各 种 规则 ,此 种 语言 应 允许 计算 和 数据 操作 跨越 任意 数 
目的 数据 维 , 而 不 必 限 制 数据 单元 间 的 任何 关系 ,也 不 必 考 虑 每 一 单元 包含 的 通用 数据 属性 
数目 。 
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10. 直观 的 数据 操作 


OLAP 操作 要 求 直观 易 懂 。 如 果 要 重 定向 联系 路 径 ,或 在 维 或 行 间 进行 细 训 操作 ,都 
应 该 通过 直观 的 操作 分 析 模 型 来 完成 ,而 不 需要 使 用 菜单 ,也 不 需要 跨越 用 户 界面 进行 多 次 
操作 , 即 综合 路 径 重 定位 ` 向 上 综合 .向 下 钻 取 和 其 他 操作 都 可 以 通过 直观 方便 的 点 、 拉 操 
作 来 完成 。 

在 分 析 模 型 中 定义 的 维 应 包含 用 户 分 析 所 需 的 所 有 信息 ,从 而 可 以 进行 任意 继承 操作 。 


11. 灵活 的 报表 生成 


使 用 OLAP 服务 器 及 其 工具 ,用 户 可 以 按 任 何 想 要 的 方式 来 操作 、 分 析 、 综 合 和 查看 数 
据 , 这 些 方式 包括 将 行 、 列 及 单元 按 需 要 依次 排放 。 报 表 机 制 也 应 提供 此 种 灵活 性 ,报表 必 
须 能 从 各 种 可 能 的 方面 显示 出 从 数据 模型 中 综合 出 的 数据 和 信息 ,充分 反映 数据 分 析 模型 
的 多 维特 征 , 并 可 按 用 户 需要 的 方式 来 显示 它 。 


12. 不 受 限制 的 维和 聚集 层次 


OLAP 服务 器 应 能 在 一 通用 分 析 模 型 中 协调 至 少 15 个 维 。 每 一 通用 维 应 能 允许 有 任 
意 个 用 户 定 义 的 聚集 ,而 且 用 户 分 析 员 可 以 在 任意 给 定 的 综合 路 径 上 建立 任意 多 个 聚集 层 
次 ( 见 3.4.4 节 数据 立方 体 ) 。 


3.1.3 OLAP 的 基本 概念 


OLAP 是 针对 特定 问题 的 联机 数据 访问 和 分 析 。 通 过 对 信息 进行 快速 ,稳定 一 致 和 交 
互 性 的 存 取 , 允许 管理 决策 人 员 对 数据 进行 深入 观察 。 为 了 对 OLAP 技术 有 更 深入 的 了 
解 ,这 里 主要 介绍 在 OLAP 中 常用 的 一 些 基本 概念 。 


1. 变量 

变量 是 数据 的 实际 意义 , 即 描述 数据 * 是 什么 ”。 例 如 ,数据 100 本 身 并 没有 意义 或 者 说 
意义 未 定 , 它 可 能 是 一 个 学 校 的 学 生 人 数 , 也 可 能 是 某 产品 的 单价 ,还 可 能 是 某 商 品 的 销售 
量 , 等 等 。 一 般 情况 下 ,变量 总 是 一 个 数值 度量 指标 ,例如 ,“ 人 数 ”“ 单 价 ”“ 销 售 量 ” 等 都 是 
变量 ,而 100 则 是 变量 的 一 个 值 。 


2. 维 


维 是 人 们 观察 数据 的 特定 角度 。 例 如 ,企业 常常 关心 产品 销售 数据 随 着 时 间 推 移 而 产 
生 的 变化 情况 ,这 时 是 从 时 间 的 角度 来 观察 产品 的 销售 ,所 以 时 间 是 一 个 维 (时 间 维 )。 企 业 
也 时 常 关心 自己 的 产品 在 不 同 地 区 的 销售 分 布 情况 ,这 时 是 从 地 理 分 布 的 角度 来 观察 产品 
的 销售 ,所 以 地 理 分 布 也 是 一 个 维 (地 理 维 )。 其 他 还 有 产品 维 、 顾 客 维 等 。 


3. 维 的 层次 


人 们 观察 数据 的 某 个 特定 角度 ( 即 某 个 维 ) 还 可 以 存在 细节 程度 不 同 的 多 个 描述 方面 ， 
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通常 称 这 多 个 描述 方面 为 维 的 层次 。 一 个 维 往往 具有 多 个 层次 。 例 如 ,描述 时 间 维 时 ,可 以 
从 日 期 月份. 季度、 年 等 不 同 层 次 来 描述 ,那么 日 期 月份 .季度 、 年 等 就 是 时 间 维 的 层次 ;: 同 
样 ,城市 .地 区 、 国 家 等 构成 了 地 理 维 的 层次 。 


4. 维 成 员 


维 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 。 如 果 一 个 维 是 多 层次 的 ,那么 该 维 的 维 成 员 是 
由 各 个 不 同 维 层次 的 取 值 组 合 而 成 的 。 例 如 ,考虑 时 间 维 具有 日 期 月份 .年 这 三 个 层次 ,分 
别 在 日 期 .月份 .年 上 各 取 一 个 值 组 合 起 来 ,就 得 到 了 时 间 维 的 一 个 维 成 员 , 即 “ 某 年 某 月 某 
日 ”。 一 个 维 成 员 并 不 一 定 在 每 个 维 层 次 上 都 要 取 值 ,例如 ,“ 某 年 某 月 ”“ 某 月 某 日 "“ 某 
年 ”等 都 是 时 间 维 的 维 成 员 。 对 应 一 个 数据 项 来 说 , 维 成 员 是 该 数据 项 在 某 维 中 位 置 的 描 
述 。 例 如 对 一 个 销售 数据 来 说 ,时 间 维 的 维 成 员 * 某 年 某 月 某 日 ”就 表示 该 销售 数据 是 “ 某 年 
某 月 某 日 "的 销售 数据 ,“ 某 年 某 月 某 日 "是 该 销售 数据 在 时 间 维 上 位 置 的 描述 。 


5. 多 维 数组 


一 个 多 维 数组 可 以 表示 为 : ( 维 1, 维 2,…, 维 ,变量 )。 例 如 ,车 日 用 品 销售 数据 是 按 
时 间 、 地 区 和 销售 渠道 组 织 起 来 的 三 维 立 方 体 ,加 上 变量 “销售 额 ”, 就 组 成 了 一 个 多 维 数组 
(地 区 ,时间 ,销售 渠道 ,销售 额 ) ,如 果 在 此 基础 上 再 扩展 一 个 产品 维 , 就 得 到 一 个 四 维 的 结 
构 ,其 多 维 数组 为 (产品 ,地 区 ,时 间 ,销售 渠道 ,销售 额 ) 。 


6. 数据 单元 (单元 格 ) 


多 维 数组 的 取 值 称 为 数据 单元 。 当 多 维 数组 的 各 个 维 都 选中 一 个 维 成 员 时 ,这 些 维 成 
员 的 组 合 就 唯一 确定 了 一 个 变量 的 值 。 那 么 数据 单元 就 可 以 表示 为 :( 维 1 维 成 员 , 维 2 维 
成 员 ,…, 维 维 成 员 , 变 量 的 值 )。 例 如 ,在 产品 ,地 区 、 时 间 和 销售 渠道 上 各 取 维 成 员 * 牙 
襄 "“ 上 海 "“2004 年 12 月 ”和 “批发 ", 就 唯一 确定 了 变量 “销售 额 * 的 一 个 值 ( 假 设 为 
100 000) , 则 该 数据 单元 可 表示 为 (牙膏 ,上 海 ,2004 年 12 月 ,批发 ,100 000)。 


3.2 ”OLAP 的 数据 模型 


建立 OLAP 的 基础 是 多 维 数据 模型 ,多 维 数据 模型 的 存储 可 以 有 多 种 不 同 的 形式 。 
MOLAP 和 ROLAP 是 OLAP 的 两 种 主要 形式 ,其 中 MOLAP(CMulti-dimension OLAP) 是 
基于 多 维 数据 库 的 OLAP, 简 称 为 多 维 OLAP;ROLAP(Relation OLAP) 是 基于 关系 数据 
库 的 OLAP, 简称 关系 OLAP。 还 有 几 种 OLAP, 如 WOLAP(Web OLAP) 代 表 网 络 
OLAP,HOLAP(Hybrid OLAP) 代 表 混 合 OLAP。 


3.2.1 MOLAP 数据 模型 


MOLAP 数据 模型 是 基于 多 维 数 据 库 的 OLAP, 多 维 数据 库 (Multi Dimensional 
DataBase, MDDB) 是 以 多 维 方 式 组 织 数据 , 即 以 维 作为 坐标 系 ,采用 类 似 于 数组 的 形式 存储 
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数据 。 多 维 数据 库 中 的 元 素 具有 相同 类 型 的 数值 ,如 销售 量 。 例 如 ,二 维 MDDB( 数 组 , 即 
矩阵) 的 数据 组 织 如 表 3. 1 所 示 。 它 代表 不 同 产品 (衣服 、 鞋 、 帽 ) 在 不 同 地 区 (北京 、 上 海 、 广 


州 ) 的 销售 量 情况 。 
表 3.1 MDDB( 二 维 ) 数 据 组 织 
北京 上 海 广州 
衣服 600 700 500 
鞋 800 900 700 
帽子 100 200 80 


在 查询 中 除 查 询 一 般 的 “衣服 在 广州 的 销售 量 ” 外 ,有 时 查询 像 “ 衣 服 的 总 销售 量 ” 等 类 
问题 , 它 涉及 多 个 数据 项 求 和 ,如 果 采 取 临 时 进行 累加 计算 ,会 使 查询 效率 大 大 降低 。 为 此 ， 
需要 增加 汇总 数据 项 。 在 多 维 数据 库 中 只 需要 按 行 或 列 进行 求 和 ,增加 “总 和 ”的 维 成 员 即 


可 ,如 表 3.2 所 示 。 


表 3.2 多 维 数据 库 中 含 综合 数据 的 数据 组 织 


北京 上 海 广州 总 和 
衣服 600 700 500 1800 
鞋 800 900 700 2400 
帽子 100 200 80 380 
总 和 1500 1800 1280 4580 


MDDB 的 数据 组 织 形式 不 同 于 关系 数据 库 的 组 织 形式 ,关系 数据 库 是 以 “属性 一 元 组 
(记录 )” 形 式 组 织 数 据 。 对 表 3. 1 中 的 数据 按 关系 数据 库 组 织 ,数据 如 表 3. 3 所 示 。 


表 3.3 关系 数据 库 RDBMS 数据 组 织 


产品 名 地 区 销售 量 产品 名 地 区 销售 量 
衣服 北京 600 鞋 广州 700 

衣服 上 海 700 帽子 北京 100 

衣服 广州 500 帽子 上 海 200 

鞋 北京 800 帽子 广州 80 

对 上 海 900 

可 见 ,多 维 数据 库 MDDB 比 关系 数据 库 表 达 更 清晰 且 占 用 的 存储 少 。 在 关系 数据 库 中 


增加 综合 数据 项 ,如 表 3.4 所 示 。 这 些 综合 数据 项 一 般 在 建立 数据 库 的 同时 计算 出 来 。 这 
样 在 查询 时 ,不必 临时 进行 计算 ,提高 了 查询 效率 。 对 于 多 维 数据 库 的 综合 数据 项 明显 比 关 
系数 据 库 的 综合 项 更 有 效果 。 


。45 。 


表 3.4 关系 数据 库 中 综合 数据 的 数据 组 织 


产品 名 | 地 区 | 销售 量 | 产品 | 地 区 | 销售 量 
衣服 北京 600 鞋 广州 700 
衣服 上 海 700 鞋 总 和 2400 
衣服 广州 500 帽子 北京 100 
衣服 总 和 1800 帽子 上 海 200 
对 北京 800 帽子 广州 80 
对 上 海 900 帽子 总 和 380 


3.2.2 ROLAP 数据 模型 


ROLAP 是 基于 关系 数据 库 的 OLAP, 如 表 3. 3 所 示 。 它 是 一 个 平面 结构 ,用 关系 数据 
库 表示 多 维 数据 时 ,采用 星 型 模型 , 即 用 两 类 表 , 一 类 是 事实 表 , 存 储 事实 的 实际 值 ,如 销售 
量 ; 另 一 类 是 维 表 , 对 每 一 个 维 来 说 ,至 少 有 一 个 表 来 存储 该 维 的 描述 信息 ,如 产品 的 名 称 、 
分 类 等 。 星 型 模型 完全 用 二 维 关系 表示 了 数据 的 多 维 观念 。 

通过 关系 数据 库 实现 多 维 查 询 时 ,通过 维 表 的 主 码 对 事实 表 和 每 一 个 维 表 做 连接 操作 ， 
一 次 查询 就 可 以 得 到 数据 的 具体 值 以 及 对 数据 的 多 维 描述 ( 即 对 应 的 各 维 上 的 维 成 员 )。 但 
是 ,因为 对 每 个 维 都 需要 进行 一 次 连接 操作 ,所 以 系统 的 性 能 就 成 了 ROLAP 实现 的 最 大 的 
一 个 问题 ,特别 是 当 维 数 增加 和 事实 表 增 大 时 ,必须 采用 有 效 的 查询 优化 技术 (特别 是 表 连 
接 策 略 ) ,利用 各 种 索引 技术 来 提高 系统 的 性 能 。 

当 存 在 多 层次 的 复杂 维 时 ,需要 采用 “雪花 模型 ", 用 多 张 表 来 描述 一 个 复杂 维 。 对 于 存 
在 综合 数据 时 ,需要 建立 汇总 事实 表 , 采 用 “ 星 网 模型 "来 描述 。 


3.2.3 MOLAP 与 ROLAP 的 比较 


MOLAP 通过 多 维 数据 库 引 擎 从 关系 数据 库 DB 和 数据 仓库 DW 中 提取 数据 ,将 各 种 
数据 组 织 成 多 维 数据 库 , 存 放 到 MDDB 中 ,而 且 将 自动 建立 索引 并 进行 预 综合 ( 见 3. 4. 4 
节 ) 来 提高 查询 存 取 性 能 ,如 图 3. 1 所 示 。 


生成 


多 维 数据 库 引 擎 


多 维 视 医 


图 3.1 MOLAP 结构 


ROLAP 从 关系 数据 库 DB 和 数据 仓库 DW 中 提取 数据 , 按 关系 OLAP(ROLAP) 的 数 


据 组 织 存放 在 关系 数据 库 服务 器 (RDBMS 服务 器 ) 中 。 最 终 用 户 的 多 维 分 析 请 求 ,通过 
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ROLAP 服务 器 的 多 维 分 析 (OLAP) 引 擎 动态 翻译 成 SQL 请 求 ,将 查询 结果 经 多 维 处 理 ( 将 
关系 表达 式 转换 成 多 维 视图 ) 返 回 用 户 , 如 图 3. 2 所 示 。 


最 终 用 户 


如 


ROLAP | SQL | OLAP | 生成 | 
提取 | 数据 组 织 | 存 取 “| 引擎 


pw RDBMS 服 务 器 。 ”ROLAP 服 务 器 多 维 视图 


图 3.2 ROLAP 结构 


虽然 这 两 种 技术 都 满足 了 OLAP 数据 处 理 的 一 般 过 程 , 即 数据 装 入 、 汇 总 、 建 索引 和 提 
供 使 用 ,但 MOLAP 要 比 ROLAP 简明 一 些 ,MOLAP 的 索引 及 数据 综合 可 以 自动 进行 。 然 
而 ROLAP 的 实现 较为 复杂 ,但 灵活 性 较 好 ,用 户 可 以 动态 实现 统计 或 计算 方式 。 

下 面 详细 深入 分 析 MOLAP 与 ROLAP。 


1. 数据 存 取 速度 


ROLAP 的 多 维 数据 是 以 星 型 模型 等 关系 数据 库 ( 平 面 形式 ) 存 储 ,并 不 直接 体现 “ 超 立 
方 体 "形式 。 在 接收 客户 OLAP 请 求 时 ,ROLAP 服务 器 需要 将 SQL 语句 转化 为 多 维 存储 
语句 ,并 利用 连接 运算 临时 “拼合 ”出 多 维 数据 立 方 体 。 因 此 ,ROLAP 的 响应 时 间 较 长 。 

目前 ,关系 型 数据 库 已 经 对 OLAP 做 了 很 多 优化 ,包括 并 行 存储 、 并 行 查 询 、 并 行 数据 
管理 ,基于 成 本 的 查询 优化 、 位 图 索引 、SQL 的 OLAP 扩展 等 ,大 大 提高 了 ROLAP 的 速度 。 

MOLAP 是 专 为 OLAP 所 设计 的 ,能 够 自动 地 建立 索引 ,并 且 有 良好 的 预计 算 能 力 , 能 够 
使 用 多 维 查 询 语句 访问 数据 立方 体 ,因此 MOLAP 在 数据 存储 速度 上 性 能 好 ,响应 速度 快 。 


2. 数据 存储 的 容量 


ROLAP 使 用 的 传统 关系 数据 库 的 存储 方法 ,在 存储 容量 上 基本 没有 限制 。 但 是 ,需要 
指出 的 是 ,在 ROLAP 中 为 了 提高 分 析 响 应 速度 ,常常 构造 大 量 的 中 间 表 (如 综合 表 ) ,这 些 
中 间 表 带 来 了 大 量 的 元 余数 据 。 

MOLAP 通常 采用 多 平面 蕉 加 成 立体 的 方式 存放 数据 ,( 这 样 访问 速度 快 ), 由 于 受 操作 
系统 平台 中 文件 大 小 的 限制 , 当 数 据 量 超过 操作 系统 最 大 文件 长 度 时 ,需要 进行 数据 分 割 。 
随 着 数量 的 增 大 ,多 维 数据 库 进 行 的 预 运算 结果 将 占用 巨 量 的 空间 ,此 时 可 能 会 导致 “数据 
爆炸 ”的 现象 。 因 此 ,多 维 数据 库 的 数据 量 级 难以 达到 太 大 的 字 节 级 。 


3. 多 维 计算 的 能 力 


MOLAP 能 够 支持 高 性 能 的 决策 支持 计算 ,包括 复杂 的 跨 维 计算 、 行 级 的 计算 ,而 在 
ROLAP 中 ,SQL 无 法 完成 部 分 计算 ,并 且 ROLAP 无 法 完成 多 行 的 计算 和 维 之 间 的 计算 。 
最 近 发 展 起 来 的 多 维 数据 分 析 语 言 MDX 能 更 有 效 地 进行 多 维 数据 分 析 ( 见 3.4.5 节 )。 
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4. 维度 变化 的 适应 性 


MOLAP 需要 在 建立 多 维 数据 库 前 确定 各 个 维度 以 及 维度 的 层次 关系 。 在 多 维 数据 库 
建立 之 后 ,如 果 要 增加 新 的 维度 , 则 多 维 数据 库 通 常 需要 重新 建立 。 新 增 维度 数据 会 剧烈 增 
加 。 而 ROLAP 增加 一 个 维度 ,只 是 增加 一 张 维 表 并 修改 事实 表 , 系 统 中 其 他 维 表 不 需要 修 
改 , 因 此 ROLAP 对 于 维 表 的 变更 有 很 好 的 适应 性 。 


5. 数据 变化 的 适应 性 


由 于 MOLAP 通过 预 综合 处 理 来 提高 速度 , 当 数 据 频繁 地 变化 时 , MOLAP 需要 进行 
大 量 的 重新 计算 ,甚至 重新 建立 索引 乃至 重 构 多维 数 据 库 。 在 ROLAP 中 , 预 综合 处 理 通常 
由 设计 者 根据 需求 制定 ,因此 灵活 性 较 好 ,对 于 数据 变化 的 适应 性 强 。 


6. 软 硬 件 平台 的 适应 性 


关系 数据 库 已 经 在 众多 的 软 硬 件 平台 上 成 功 地 运行 , 即 ROLAP 对 软 硬 件 平台 的 适应 
性 很 好 ,而 MOLAP 相对 较 差 。 


7. 元 数据 管理 


元 数据 是 OLAP 和 数据 仓库 的 核心 数据 ,OLAP 的 元 数据 包括 层次 关系 、 计 算 转化 信 
息 .报表 中 的 数据 项 描述 .安全 存 取 控 制 .数据 更 新 .数据 源 和 预计 算 综合 表 等 ,目前 在 元 数 
据 的 管理 上 ,MOLAP 和 ROLAP 都 没有 成 形 的 标准 ,MOLAP 产品 将 元 数据 作为 其 内 在 数 
据 , 而 ROLAP 产品 将 元 数据 作为 应 用 开发 的 一 部 分 ,由 设计 者 来 定义 和 处 理 。 

MOLAP 和 ROLAP 在 技术 上 各 有 优 缺 点 。MOLAP 以 多 维 数据 库 为 核心 ,在 数据 存 
储 和 综合 上 有 明显 的 优势 ,但 它 不 适应 太 大 的 数据 存储 ,特别 是 对 有 大 量 稀 朴 数据 的 存储 将 
会 浪费 大 量 的 存储 空间 。ROLAP 以 RDBMS 为 基础 ,利用 成 熟 的 技术 为 用 户 的 使 用 和 管 
理 带 来 方便 。 

MOLAP 和 ROLAP 在 数据 存储 .技术 和 特性 方面 的 比较 如 表 3.5 所 示 。 


表 3.5 MOLAP 和 ROLAP 的 比较 


数据 存储 技 术 特 征 
由 MOLAP 引擎 创建 ; 
详细 数据 用 关系 表 存 储 在 数据 仓 | 预先 建立 数据 立方 体 ; eh 
库 中 多 维 视图 存储 在 陈列 中 ,而 | 交 申 而 庶 志 人， 
MOLAP | 各 种 汇总 数据 保存 在 多 维 数据 库 中 ;| 不 是 表格 中 ; ee 的 下 钻 和 多 层 
从 数据 仓库 中 询问 详细 数据 ,从 多 维 | 可 以 高 速 检索 和 矩阵 数据 ; 次 /多 视角 的 查询 能 力 和 
数据 库 中 询问 汇总 数据 利用 稀 朴 矩阵 技术 来 管理 汇 
总 的 稀 朴 数据 
全 部 数据 以 关系 表 存 储 在 数据 仓 | 使 用 复杂 SQL 从 数据 仓库 | 在 复杂 分 析 功 能 上 有 局 
库 中 ; 中 获取 数据 ; 限 性 ,需要 采用 优化 的 
ROLAP | 可 获得 细节 的 和 综合 汇总 的 数据 ; ”| ROLAP 引擎 在 分 析 中 创建 | OLAP; 
有 非常 大 的 数据 容量 ; 数据 立方 体 ; 向 下 钻 取 较 容易 ,但 是 
从 数据 仓库 中 询问 所 有 的 数据 表示 层 能 够 表示 多 维 的 视图 | 跨 维 向 下 钻 取 比 较 困 难 
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3.2.4 HOLAP 数据 模型 


HOLAP(Hybrid OLAP) , 即 混合 OLAP 介 于 MOLAP 和 ROLAP 之 间 。 在 HOLAP 
中 ,对 于 最 常用 的 维度 和 维 层次 ,使 用 多 维 数据 库 来 存储 ,对 于 用 户 不 常用 的 维度 和 数据 , 采 
用 ROLAP 星 型 结构 来 存储 。 当 用 户 询问 不 常用 数据 时 ,HOLAP 将 会 把 简化 的 多 维 数据 
库 和 星 型 结构 进行 拼合 ,从 而 得 到 完整 的 多 维 数据 。 

在 HOLAP 的 多 维 数据 库 中 的 数据 维度 少 于 MOLAP 中 的 维度 库 ,数据 存储 容量 也 少 
于 MOLAP 方式 。 但 是 ,HOLAP 在 数据 存 取 速度 上 又 低 于 MOLAP。 


3.3 多维 数据 的 显示 


3.3.1 多 维 数据 显示 方法 


多 维 数据 一 般 采 用 多 维 数据 库 (MDDB) 和 关系 数据 库 (RDBMS) 两 种 方式 存储 。 多 维 
数据 的 显示 只 能 在 平面 上 展现 出 来 。 对 于 二 维 数据 采用 多 维 数据 库 形式 显示 时 ,如 表 3. 1 
所 示 。 二 维 数据 采用 关系 数据 库 形式 显示 时 ,如 表 3. 3 所 示 。 若 增加 一 维 时 间 维 ,仍然 可 以 
显示 出 来 ,如 表 3.6 所 示 。 


表 3.6 三 维 数据 的 关系 数据 库 显 示 


产品 地 区 时 间 销售 量 
衣服 北京 1 月 100 
衣服 北京 2 月 200 
衣服 北京 3 月 300 
衣服 上 海 1 月 200 
衣服 上 海 2 月 300 
衣服 上 海 :| 400 
衣服 广州 | 150 
衣服 广州 2 月 250 
衣服 广州 3 月 300 
鞋 北京 1 月 150 
鞋 北京 2 月 300 
鞋 北京 3 月 350 
鞋 上 海 1 月 200 
鞋 上 海 2 月 300 
鞋 上 海 3 骨 400 
鞋 广州 1 月 150 
鞋 广州 2 月 250 
鞋 广州 3 月 300 
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用 关系 数据 库 可 以 显示 更 多 维 的 数据 , 即 用 星 型 模型 的 事实 表 形 式 显 示 。 但 是 ,用 事实 
表 显 示 多 维 数据 时 ,重复 数据 很 多 ,也 显得 很 烦琐 。 

用 多 维 数据 库 显 示 时 ,虽然 不 能 同时 显示 三 维 以 上 数据 ,由 于 显示 的 数据 很 精炼 ,因此 
仍然 用 多 维 数据 库 的 方式 来 显示 多 维 数据 。 一 般 在 多 维 数据 库 中 ,固定 一 些 维 成 员 ,重点 显 
示 两 维 的 数据 。 如 在 表 3.6 三 维 数据 中 ,固定 地 区 维 是 “北京 地 区 ”时 的 两 维 数据 的 显示 如 
表 3.7 所 示 。 


表 3.7 北京 地 区 销售 情况 表 


北京 地 区 1 月 2 月 3 月 
衣服 100 200 300 
鞋子 150 300 350 


3.3.2 多 维 类 型 结构 


为 了 有 效 地 表示 多 维 数据 ,E. Thomsen 引入 了 多 维 类 型 结构 (MTS)。 有 些 专家 称 之 
为 多 维 域 结构 (MDS) 。 表 示 方 法 是 : 每 一 个 维度 用 一 条 


时 间 产品 指标 
线段 来 表示 。 维 度 中 的 每 一 个 成 员 都 用 线段 上 的 一 个 单 于】 下 上 让 本 国定 成 本 
位 区 间 来 表示 。 例 如 ,用 三 个 线段 分 别 表示 时 间 .产品 和 十 了 裤 可 变 成 本 
指标 三 个 维 的 多 维 类 型 结构 如 图 3. 3 所 示 。 于 ; 对 人 
在 图 3.3 多 维 类 型 结构 (MTS) 中 ,指定 时 间 维 成 员 十 g ?Tgp 
是 3 月 ,产品 维 成 员 是 鞋 ,指标 维 成 员 是 销售 量 ,这 样 它 于 1 
代表 了 三 维 数据 的 一 个 空间 数据 点 ,如 图 3. 4 所 示 。 工 2 补 F 二 


在 MTS 中 ,在 原 有 多 维 数据 中 增加 一 个 维 是 很 容 因 3.3 三 级 MIS 侈 


易 的 ,例如 在 图 3. 3 的 三 维 中 增加 一 个 商店 维 , 这 时 需要 增加 一 条 线段 表示 商店 维 ,如 图 3.5 
所 示 。 


时 间 
(3 月 ， 鞋 ， 销 售 量 ) 9 
! 时 间 ”产品 。 ”指标 商店 
| 十} 上 衣 。 | 固定 成 本 商店! 
| 十 3 裤 可 变 成 本 | 商店 2 
Ts “TT 十 本 
| a 直接 销售 -| 商店 3 
于 十 时 下 同情 售 十 
-?0 手套 | “” ”| 商店 5 
十 袜子 | 总 销售 商店 6 
图 3.4 多 维 类 型 结构 中 的 空间 数据 点 图 3.5 四 维 MTS 例 


3.3.3 多 维 数据 的 分 析 视 图 


在 平面 的 屏幕 上 显示 多 维 数据 ,是 利用 行列 和 页 面 三 个 显示 组 来 表示 的 。 例 如 ,对 上 
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例 的 四 维 MTS 实例 ,在 页 面 上 选 定 商店 维度 的 “商店 3”, 在 行 中 选 定时 间 维 的 “1 月 .2 月 、3 
月 ? 共 3 个 成 员 ,在 列 中 选 定 产品 维 中 的 “上 衣 、 裤 .帽子 三 个 成 员 , 以 及 指标 维 中 的 “固定 成 
本 直接 销售 ?两 个 成 员 。 该 四 维 数据 的 显示 如 图 3.6 所 示 。 


商店 3 上 衣 裤 帽子 
(页 面 ) 直接 销售 ”| 固定 成 本 | 直接 销售 ”| 固定 成 本 | 直接 销售 ”| 固定 成 本 
1 月 450 350 550 450 500 400 
2 月 380 280 460 360 400 320 
3 月 400 310 480 410 450 400 


图 3.6 四 维 数据 的 显示 


对 于 更 多 维度 的 数据 显示 ,需要 选择 维度 及 其 成 员 分 布 在 行 或 者 列 中 。 在 页 面 上 可 以 


选 定 多 个 维度 ,但 每 个 维度 只 能 显示 一 个 成 员 。 在 行 或 者 列 中 一 般 只 选择 两 个 维 , 每 个 维 都 
可 以 多 个 成 员 。 例 如 ,对 6 个 维度 数据 , 它 的 MTS 如 图 3.7 所 示 。 
商店 客户 指标 时 间 。 场景 产品 
了 商店! 少年 。 二 固定 成 本 十 3》 i 
了 商店 十 可 变 成 本 十 4 | _| 梅子 
商店 3 | 青年 十 十 ; 沙发 
sg. 下 直接 销售 十 ， 计划 十 亲 几 
| 商店 5 十 间接 销售 十 9 台灯 
| | ei 二 | 二 十 
| BE6 | | 总 销售 十 是 吊扇 


图 3.7 六 维 MTS 实例 


对 以 上 六 维 数据 中 , 设 定 页 面 维度 为 商店 的 成 员 是 “商店 3”, 客 户 维度 成 员 是 “老年 ”。 
行 维度 含 时间 维 和 产品 维 共 2 个 维度 ,其 中 时 间 维 中 成 员 为 "1 月 .2 月 .3 月 ”。 产 品 维 中 成 
员 为 “桌子 、 台 灯 ”。 列 维度 含 指 标 维和 场景 维 共 2 个 维度 ,其 中 指标 维 中 成 员 为 “直接 销售 、 
间接 销售 ,总 销售 ”。 场 景 维 中 成 员 为 实际、 计划”。 具 体 的 显示 数据 如 图 3. 8 所 示 。 


商店 3， 老 年 直接 销售 | 间接 销售 总 销售 

(页 面 ) 实际 计划 ”| 实际 [计划 实际 计划 

1 月 桌子 250 300 | 125 150 375 450 
台灯 265 320 | 133 160 400 480 

2 月 桌子 333 400 | 167 | 200 500 600 
台灯 283 340 | 142 170 425 510 

3 月 桌子 350 420 | 175 210 525 630 
台灯 250 300 | 125 | 150 375 450 


图 3.8 六 维 数据 的 显示 


由 于 整个 屏幕 的 空间 是 有 限 的 ,将 维度 嵌 套 在 行 或 者 列 中 相对 于 放 在 页 维度 中 会 占据 
更 多 的 屏幕 空间 。 用 于 显示 维度 的 空间 越 多 ,那么 用 于 显示 数据 的 空间 就 会 越 少 。 随 着 显 
示 数 据 空间 的 减少 ,为 了 查看 同样 的 数据 ,就 需要 做 更 多 的 卷 屏 操 作 。 卷 屏 操 作 的 增加 也 加 
大 了 理解 正在 寻找 的 数据 的 难度 。 一 些 经 验 规则 有 : 


站 二 沁 


(1) 将 维度 尽量 放 在 页 中 ,除非 确定 需要 同时 看 到 一 个 维度 的 多 个 成 员 。 让 屏幕 上 的 
信息 尽量 相关 。 

(2) 当 维度 嵌 套 在 行 或 者 列 中 时 ,考虑 到 垂直 空间 比 水 平 空间 更 为 有 用 ,所 以 将 维度 肯 
套 在 列 中 比 嵌 套 在 行 中 要 好 。 一 个 经 典 的 显示 方法 就 是 在 行 上 有 1 个 维度 ,而 在 列 上 府 套 
1 一 3 个 维度 ,而 其 他 的 维度 则 放 在 页 中 ,如 图 3.6 所 示 。 

(3) 在 决定 数据 的 屏幕 显示 方式 之 前 ,应 该 首先 弄 清 楚 需 要 查找 和 分 析 比 较 的 内 容 。 
例如 ,如 果 需 要 比较 某 个 产品 和 某 类 客户 在 商品 和 时 间 上 的 实际 成 本 情况 ,就 可 以 将 产品 和 
客户 放 在 页 面 维 度 中 ,而 在 屏幕 上 则 可 以 按 商 店 和 时 间 来 显示 实际 成 本 ,如 图 3.9 所 示 。 

页 面 维度 : 

产品 维 成 员 * 鞋 ”, 指 标 维 成 员 * 成 本 ”, 场 景 维 成 员 * 实 际 ”, 客 户 维 成 员 * 青 年 ”。 


1 月 2 月 3 月 4 月 
商店 1 125 170 157 114 
商店 2 200 195 129 157 
商店 3 136 158 132 144 


图 3.9 按照 商店 和 时 间 比 较 成 本 的 数据 组 织 


3.4 OALP 的 多 维 数据 分 析 


3.4.1 多 维 数据 分 析 的 基本 操作 


OLAP 的 目的 是 为 管理 决策 人 员 通 过 一 种 灵活 的 多 维 数据 分 析 手 段 ,提供 辅助 决策 信 
息 。 基 本 的 多 维 数据 分 析 操 作 包 括 切片 、. 切 块 .旋转 、 钻 取 等 。 通 常 把 在 多 维 数据 分 析 中 加 
入 数据 分 析 模 型 和 商业 分 析 模 型 称 为 广义 OLAP。 

随 着 OLAP 的 深入 发 展 ,出 现 了 多 维 数据 聚集 计算 的 数据 立方 体 和 多 维 数据 分 析 的 
MDX 语言 。 


1. 切片 


选 定 多 维 数组 的 一 个 二 维 子 集 的 操作 叫做 切片 (Slice) , 即 选 定 多 维 数组 ( 维 1, 维 2,…， 
维 , 变 量 ) 中 的 两 个 维 : 如 维 i 和 维 j ,在 这 两 个 维 上 取 某 一 区 间或 任意 维 成 员 , 而 将 其 余 的 
维 都 取 定 一 个 维 成 员 , 则 得 到 的 就 是 多 维 数组 在 维 i 和 维 } 上 的 一 个 二 维 子 集 , 称 这 个 二 维 
子 集 为 多 维 数组 在 维 i 和 维 j 上 的 一 个 切片 ,表示 为 ( 维 i, 维 j, 变 量 )。 

切片 就 是 在 某 两 个 维 上 取 一 定 区 间 的 维 成 员 或 全 部 维 成 员 , 而 在 其 余 的 维 上 选 定 一 个 
维 成 员 的 操作 。 这 里 可 以 得 出 两 点 共识 : 

维 是 观察 数据 的 角度 ,那么 切片 的 作用 或 结果 就 是 舍弃 一 些 观察 角度 ,使 人 们 能 在 两 个 
维 上 集中 观察 数据 。 因 为 人 的 空间 想象 能 力 毕竟 有 限 ,一 般 很 难 想象 四 维 以 上 的 空间 结构 。 
所 以 对 于 维 数 较 多 的 多 维 数据 空间 ,数据 切片 是 十 分 有 意义 的 。 

图 3. 10 所 示 为 一 个 按 产品 维 ` 地 区 维和 时 间 维 组 织 起 来 的 产品 销售 数据 ,用 三 维 数组 
表示 为 (地 区 ,时 间 ,产品 ,销售 额 )。 如 果 在 地 区 维 上 选 定 一 个 维 成 员 ( 设 为 "上 海 ”) ,就 得 到 
了 在 地 区 维 上 的 一 个 切片 (关于 “时 间 ” 和 “产品 ”的 切片 ) ;在 产品 维 上 选 定 一 个 维 成 员 ( 设 为 

hs 和 2 间 


“电视 机 ”) ,就 得 到 了 在 产品 维 上 的 一 个 切片 (关于 “时 间 ” 和 “地 区 ”的 切片 ;。 显 然 ,切片 的 
数目 取决 于 每 个 维 上 维 成 员 的 个 数 。 


产品 
1 
城市 广州 
上 海 
电视 机 UL 一 一 一 包 视 机 
电 冰 箱 广州 一 
全 海 电 冰 箱 
一 时 间 
2001 2002 
图 3.10 三 维 数据 切片 
2. 切 块 
切 块 (Dice) 有 如 下 两 种 情况 。 


(1) 在 多 维 数组 的 某 一 个 维 上 选 定 某 一 区 间 的 维 成 员 的 操作 

切 块 可 以 看 成 是 在 切片 的 基础 上 确定 某 一 个 维 成 员 的 区 间 得 到 的 片段 ,也 即 由 多 个 切 
片 释 合 起 来 的 。 对 于 时 间 维 的 切片 (时 间 取 一 个 确定 值 ) ,如 果 将 时 间 维 上 的 取 值 设 定 为 一 
个 区 间 ( 例 如 取 *2001 年 至 2005 年 ”>) ,就 得 到 一 个 数据 切 块 , 它 可 以 看 成 由 2001 年 至 2005 
年 5 个 切片 重合 而 成 的 。 


(2) 选 定 多 维 数组 的 一 个 三 维 子 集 的 操作 上 海 
在 多 维 数组 ( 维 1, 维 2,…, 维 ,变量 ) 中 选 定 3 电视 机 5 外 
个 维 , 维 i\ 维 j、 维 &, 在 这 3 个 维 上 分 别 取 一 个 区 阳 城市 
间 , 或 任意 维 成 员 , 而 其 他 维 都 取 定 一 个 维 成 员 。 电 冰 箱 
例如 在 3 维 数组 (地 区 、 时 间 、 产 品 .销售 额 ) 中 地 区 人 
维 取 上 海 与 广州 两 个 维 成 员 , 产 品 维 取 电视 机 、 电 和 _ 


冰箱 两 个 维 成 员 ,时 间 维 取 2003 到 2005 的 区 间 


(三 个 维 成 员 ) 组 成 三 维 立方 体 ,如 图 3. 11 所 示 。 人 


3. 钻 取 


钻 取 (Drill) 分 为 向 下 钻 取 (drill down ) 和 向 上 钻 取 (drill up 操作。 向 下 钻 取 是 使 用 户 
在 多 层 数据 中 能 通过 导航 信息 而 获得 更 多 的 细节 性 数据 ,而 向 上 钻 取 获取 概括 性 的 数据 。 
例如 ,2009 年 各 部 门 销售 收入 如 表 3. 8 所 示 。 


表 3.8 部 门 销售 数据 


部 门 销售 部 门 销售 
部 门 1 900 部 门 3 800 
部 门 2 600 


在 时 间 维 进行 下 钻 (drill down) 操 作 ,获得 新 表 3. 9。 
i 


表 3.9 部 门 销售 下 钻 数据 


2009 年 
部 门 1 季度 2 季度 3 季度 4 季度 
部 门 1 200 200 350 150 
部 门 2 250 50 150 150 
部 门 3 200 150 180 270 


相反 的 操作 为 上 外 (drill up)。 钻 取 的 深度 与 维 所 划分 的 层次 相对 应 。 


4. 旋转 

通过 旋转 (Pivot) 可 以 得 到 不 同 视角 的 数据 。 旋 转 操作 相当 于 平面 数据 将 坐标 轴 旋 转 。 
例如 ,旋转 可 能 包含 了 交换 行 和 列 ,或 是 把 某 一 个 行 维 移 到 列 维 中 去 ,或 是 把 页 面 显示 中 的 
一 个 维和 页 面 外 的 维 进行 交换 ( 令 其 成 为 新 的 行 或 列 中 的 一 个 ) ,如 图 3. 12 所 示 。 


上 上 
产 行列 交换 时 
品 一 间 
维 维 
时 间 维 产品 维 
(a) 
地 区 维 产品 维 
下 
旋转 以 改变 
产 显示 布局 地 
品 | | 区 
维 证 
时 间 维 时 间 维 
(b) 
图 3.12 旋转 操作 


图 3.12(a) 是 把 一 个 横向 为 时 间 、 纵 向 为 产品 的 报表 旋转 成 为 横向 为 产品 、 纵 向 为 时 间 


的 报表 。 
图 3. 12(b) 是 把 一 个 横向 为 时 间 、 纵 向 为 产品 的 报表 旋转 成 一 个 横向 仍 为 时 间 而 纵向 


为 地 区 的 报表 。 
3.4.2 多 维 数据 分 析 实 例 


1. 切片 
为 了 对 广东 省 全 省 营业 税 和 个 人 所 得 税 在 2006 一 2007 两 年 的 纳税 情况 进行 全 面 了 解 ， 
需要 对 全 省 税收 数据 按 城市 进行 切片 显示 ,部 分 城市 数据 如 表 3. 10 所 示 。 
。 54 。 


表 3.10 广东 省 各 市 营业 税 和 个 人 所 得 税 表 单位 : 亿 元 
2006 年 营业 税 2006 年 所 得 税 2007 年 营业 税 2007 年 所 得 税 
广州 市 199 96 231 122 
东莞 市 53.4 25.4 70.3 31.6 
珠海 市 23.9 9.1 34.9 13.9 
佛山 市 55.7 29.3 ?2 34.4 


由 表 3. 10 中 数据 可 知 , 广 州 营业 税 增加 32. 8 亿 元 ,增长 率 为 16. 5%。 广 州 个 人 所 得 
税 增加 25. 6 亿 元 ,增长 率 为 26.7%。 东 莞 营业 税 增加 16. 9 亿 元 ,增长 率 为 31.68%。 东 莞 
个 人 所 得 税 增加 6. 2 亿 元 ,增长 率 为 24.6%。 
对 营业 税 而 言 ,增长 量 最 大 的 城市 是 广州 ,增加 速度 较 快 的 城市 是 东莞 (31. 68%% ) 。 


2. 向 下 钻 取 


为 了 更 深入 分 析 东 莞 市 的 各 行业 的 营业 税 情况 ,需要 对 东莞 营业税 数据 下 外 分析 。 


2006、2007 两 年 部 分 行业 的 纳税 情况 如 表 3. 11 所 示 。 


表 3.11 东莞 市 各 行业 的 营业 税 表 单位 : 百 万 元 
2006 年 营业 税 2007 年 营业 税 

农林 、 牧 、 渔 业 15 10 

房地产 业 1204 150 

制造 业 85.5 112.8 

餐饮 业 327.9 363.8 

金融 业 475.7 698.1 

采矿 业 0.028 0.026 


由 表 3. 11 中 数据 可 知 ,东莞 市 农 . 林 、 牧 、 渔 业 2007 年 下 降 了 5.5 百 万 元 ,下 降 率 为 
35.2%。 采 矿业 下 降 0. 02 百 万 元 ,下 降 率 为 10.5%。 房 地 产业 增加 306. 5 百 万 元 ,增加 率 
为 21%。 金 融 业 增加 222. 4 百 万 元 ,增加 率 为 46. 8%。 对 这 四 种 行业 的 增 减 率 有 更 直观 的 
表示 ,用 直方 图 表示 ,如 图 3. 13 所 示 。 


60.00% 


40.00% 


国 增 长 率 


农林 牧 渔 ”采矿 业 ”房地产 。 金融 业 
图 3.13 东莞 市 四 个 行业 营业 税 增 减 率 的 直方 图 
。55 。 


3. 数据 分 析 


(1) 宏观 分 析 

从 表 3. 10 中 的 数据 可 以 宏观 地 看 出 ,东莞 市 的 营业 税 增长 很 突出 ,在 广东 省 各 市 中 名 
列 前 位 。 

(2) 深入 分 析 

根据 表 3. 11 中 的 行业 数据 进行 深入 分 析 时 发 现 , 东 莞 的 农 ` 林 、 牧 、 渔 业 下 降 明 显 , 采 矿 
业 也 下 降 ,而 房地产 业 增 长 明显 ,金融 业 增 长 突出 。 通 过 调查 得 出 ,原因 是 随 着 经 济 的 发 展 ， 
东莞 的 外 来 合资 企业 越 来 越 多 ,本 地 农民 很 多 把 地 卖 了 或 者 租 出 去 建 厂房 然后 收 租金 ,造成 
农林 渔 营业 税 下 降 ,东莞 市 近年 逐步 实现 产业 转移 ,由 农业 更 多 地 转向 制造 业 和 加 工业 。 

从 总 体 看 ,东莞 的 房地产 业 和 金融 业 税 收 的 上 升 ,掩盖 了 农 、 林 、 牧 、 渔 业 税收 的 下 降 。 对 
领导 来 说 ,这 是 好 事 , 要 继续 支持 ”还 是 不 合理 ,需要 调整 ? 这 就 需要 领导 做 出 正确 的 决策 。 


3.4.3 广义 OLAP 功能 


OLAP 的 切片 、 切 块 . 旋 转 与 钻 取 等 基本 操作 是 最 基本 的 展示 数据 ,获取 数据 信息 的 手 
段 。 从 广义 上 讲 ,任何 能 够 有 助 于 辅助 用 户 理解 数据 的 技术 或 者 操作 都 可 以 作为 OLAP 功 
能 ,这 些 有 别 于 基本 OLAP 的 功能 称 为 广义 OLAP 功能 。 


1. 基本 代理 操作 


“代理 ”是 一 些 智能 性 代理 , 当 系 统 处 于 某 种 特殊 状态 时 提醒 分 析 员 。 

(1) 示警 报告 

定义 一 些 条 件 ,一 旦 条 件 满足 ,系统 会 提醒 分 析 员 去 做 分 析 。 例 如 每 日 报告 完成 或 月 订 
货 完成 等 通知 分 析 员 做 分 析 。 

(2) 时 间 报 告 

按 日 历 和 时 钟 提 醒 分 析 员 。 

(3) 异常 报告 

当 超 出 边界 条 件 时 提醒 分 析 员 。 例 如 销售 情况 已 超出 预定 义 阔 值 的 上 限 或 下 限时 提醒 
分 析 员 。 


2. 数据 分 析 模 型 


E.F. Codd 认为 ,以 前 的 数据 分 析 主 要 集中 在 静态 数据 值 的 相互 比较 上 。 有 了 OLAP 
后 ,可 以 进行 动态 数据 分 析 , 需 要 建立 企业 数据 模型 。Codd 将 数据 分 析 模 型 分 为 四 类 : 绝 
对 模型 (Categorical Model)、 解 释 模 型 (Exegetical Model)、 思 考 模 型 (Contemplative 
Model) 和 公式 化 (Formulaic Model) 。 

(1) 绝对 模型 

它 属 于 静态 数据 分 析 ,通过 比较 历史 数据 值 或 行为 来 描述 过 去 发 生 的 事实 。 该 模型 查 
询 比 较 简单 ,综合 路 径 是 预先 定义 好 的 ,用 户 交互 少 。 

(2) 解释 模型 

它 也 属于 静态 数据 分 析 , 分 析 人 员 利 用 系统 已 有 的 多 层次 的 综合 路 径 层 层 细 化 (进行 向 

让 


下 钻 取 操 作 ) , 找 出 事实 发 生 的 原因 。 

(3) 思考 模型 

它 属于 动态 数据 分 析 , 旨 在 说 明 在 一 维 或 多 维 上 引入 一 组 具体 变量 或 参数 后 将 会 发 生 
什么 。 分 析 人 员 在 引入 确定 的 变量 或 公式 关系 时 , 须 创建 大 量 的 综合 路 径 。 

(4) 公式 模型 

它 的 动态 数据 分 析 能 力 更 强 , 该 模型 表示 在 多 个 维 上 ,需要 引入 哪些 变量 或 参数 ,以 及 
引入 后 所 产生 的 结果 。 

下 面 通过 一 个 实例 进行 说 明 。 

一 家 百货 公司 在 建立 了 自己 的 数据 仓库 之 后 ,希望 构造 一 个 OLAP 系统 辅助 决策 。 决 
策 者 最 关心 的 一 个 问题 是 如 何 最 大 限度 地 扩大 商品 的 销售 量 , 因 而 他 希望 能 尽 可 能 地 找 出 
与 销售 量 相 关 的 因素 ,从 而 采取 相应 的 促销 手段 。 但 是 他 能 获得 多 大 的 帮助 需要 取决 于 采 
用 何 种 分 析 模 型 。 

绝对 模型 只 能 对 历史 数据 进行 比较 ,并 且 利用 回归 分 析 等 一 些 分 析 方 法 得 出 趋势 信息 。 
它 能 回答 诸如 * 某 种 商品 今年 的 销售 情况 与 以 往 相 比 有 怎样 的 变化 ? 今后 的 趋势 怎样 ?” 此 
类 问题 。 

解释 模型 能 够 在 当前 多 维 视图 的 基础 上 找 出 事件 发 生 的 原因 。 例 如 ,该 公司 按时 间 、 地 
区 .商品 及 销售 渠道 建立 了 多 维 数据 库 ,假设 今年 销售 量 下 降 ,那么 解释 模型 应 当 能 找 出 原 
因 , 即 销售 量 下 降 与 时 间 、 地 区 ,商品 及 销售 渠道 四 者 中 的 何 种 因素 有 关 。 

思考 模型 可 以 在 决策 者 的 参与 下 , 找 出 关键 变量 。 例 如 该 公司 决策 者 为 了 了 解 某 商 品 
的 销售 量 是 和 否 与 顾客 的 年 龄 有 关 , 引 入 了 新 变量 一 年 龄 , 即 在 当前 的 多 维 视图 上 增加 了 顾客 
的 年 龄 维 。 解 释 模 型 就 能 分 析出 年 龄 的 引入 是 否 必 要 , 即 商品 销售 与 顾客 年 龄 有 关 或 无 关 。 

公式 模型 自动 完成 上 述 各 种 变量 的 引入 和 分 析 , 从 而 最 终 找 出 与 销量 有 关 的 全 部 因素 ， 
并 给 出 了 引入 各 变量 后 的 结果 。 

可 以 看 出 ,这 四 种 模型 一 个 比 一 个 深入 ,从 描述 基本 事实 到 寻找 原因 ,从 代 和 变量 值 进 
行 预测 到 寻找 关键 变量 。 

Codd 认为 OLAP 是 因 企业 动态 分 析 而 产生 的 ,其 功能 是 创建 .操作 .激活 及 综合 来 自 解释 
模型 .思考 模型 及 公式 化 模型 中 的 信息 。 它 可 以 识别 变量 间 新 的 或 不 可 预测 的 关联 ,通过 创建 
大 量 的 维 (综合 路 径 ) 及 指出 维 间 计 算 条 件 .表达 式 来 处 理 大 量 数据 ,获得 辅助 决策 信息 。 


3， 商业 分 析 模 型 


利用 数据 仓库 中 的 数据 进行 商业 分 析 需 要 建立 一 系列 模型 ,用 于 提高 决策 支持 能 力 。 

具体 的 商业 分 析 模 型 有 : 

(1) 分 销 渠 道 的 分 析 模 型 

通过 客户 、 渠 道 、 产 品 或 服务 三 者 之 间 的 关系 ,了 解 客 户 的 购买 行为 .客户 和 渠道 对 业务 
收入 的 贡献 .哪些 客户 比较 喜好 由 什么 渠道 在 何 时 和 银行 打交道 、 目 前 的 分 销 渠道 的 服务 能 
力 如 何 、 需 要 增加 哪些 分 销 渠 道 才能 达到 预期 的 服务 水 平 。 

为 此 ,银行 需要 建立 客户 购买 倾向 模型 和 渠道 喜好 模型 等 。 

(2) 客户 利润 贡献 度 模 型 

通过 该 模型 能 了 解 每 一 位 客户 对 银行 的 总 利润 贡献 度 ,银行 可 以 依 客户 的 利润 贡献 度 
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安排 合适 的 分 销 渠 道 提供 服务 和 销售 ,知道 哪些 利润 高 的 客户 需要 留 住 ,采用 什么 方法 留 住 
客户 ,交叉 销售 改善 客户 的 利润 贡献 度 ,哪些 客户 应 该 争取 ,完成 个 性 化 服务 。 另 外 ,银行 可 
以 模拟 和 预测 新 产品 对 银行 的 利润 贡献 度 ,或 者 新 政策 对 银行 将 产生 什么 样 的 财务 影响 ,或 
者 客户 流失 或 留 住 对 银行 整体 利润 的 影 

(3) 客户 关系 (信用 ) 优 化 模型 

银行 对 客户 的 每 一 笔 交易 中 ,知道 客户 需要 什么 产品 或 服务 ,例如 ,定期 存款 是 希望 退 
休养 老 使 用 .申请 信用 卡 需 要 现金 消费 .询问 放贷 利息 .需要 住房 贷款 等 ,这 些 都 是 银行 提供 
产品 或 服务 最 好 的 时 机 。 银 行 需要 将 账号 每 天 发 生 的 交易 明细 ,以 实时 或 定时 方式 加 载 到 
数据 仓库 中 ,校对 客户 行为 的 变化 。 当 发 生 上 述 变化 时 ,通过 模型 计算 ,主动 地 与 客户 沟通 
并 进行 交叉 销售 ,达到 留 住 客户 和 增加 利润 的 目标 。 

(4) 风险 评估 模型 

模拟 风险 和 利润 间 的 关系 ,建立 风险 评估 的 数学 模型 ,在 满足 高 利润 . 低 风险 客户 需求 
的 前 提 下 ,达到 银行 收益 的 极 大 化 。 

银行 通过 以 上 模型 实现 以 客户 为 中 心 的 数据 仓库 决策 支持 系统 ,才能 真正 实现 个 性 化 
服务 ,提高 银行 竞争 优势 。 


3.4.4 数据 立方 体 
1. 概述 


1996 年 ,Jim Gray 等 首次 提出 了 数据 立方 体 (Data Cube) 的 概念 ,数据 立方 体 是 实现 多 
维 数据 查询 与 分 析 的 一 种 重要 手段 。 实 质 上 ,数据 立方 体 就 是 数据 仓库 结构 图 ( 见 图 2.1) 
中 的 综合 数据 层 ( 轻 度 和 高 度 ) 。 从 此 ,基于 数据 立方 体 的 生成 方法 一 直 是 OLAP 和 数据 仓 
库 领 域 研究 者 所 关注 的 热点 问题 。 

多 维 数据 集 的 属性 分 为 维 属 性 和 度量 属性 。 维 属性 是 观察 数据 对 象 的 角度 ,而 度量 属 
性 则 反映 数据 对 象 的 特征 。 对 于 多 维 数据 分 析 而 言 , 本 质 上 是 沿 着 不 同 的 维度 进行 数据 获 
取 的 过 程 。 在 数据 立方 体 中 ,不 同 维度 组 合 构成 了 不 同 的 子 立 方 体 , 不 同 维 值 的 组 合 及 其 对 
应 的 度量 值 构成 相应 的 对 于 不 同 的 查询 和 分 析 。 因 此 ,数据 立方 体 的 构建 和 维护 等 计算 方 
法 成 为 了 多 维 数据 分 析 研 究 的 关键 问题 。 

OLAP 和 数据 仓库 通常 预先 计算 好 不 同 细节 层次 和 不 同 维 属 性 集合 上 的 聚集 ,并 把 聚 
集 的 结果 存储 到 物理 磁盘 上 ( 称 为 物化 ) 。 把 所 有 可 能 的 聚集 ( 即 全 聚集 ) 都 计算 出 来 ,可 以 
得 到 最 快 的 系统 查询 响应 时 间 , 即 使 不 管 计 算 聚 集 所 花费 的 CPU 处 理 时 间 , 只 是 随 着 维 数 
的 增加 , 这样 做 就 有 可 能 导致 数据 爆炸 。 

数据 立方 体 是 在 所 有 可 能 组 合 的 维 上 进行 分 组 聚集 运算 (group by 操作 ) 的 总 和 , 聚 
集 函 数 有 : sum() .count() \average() 等 。 数 据 立方 体 中 的 每 一 个 元 组 (立方 体 的 度量 属 
性 ) 被 称 为 该 立方 体 上 的 格 (cell) ,每 个 格 在 nn 个 维 属性 上 有 相应 的 值 ,其 中 ,在 未 参与 
group by 操作 的 维 属性 上 具有 All 值 ( 用 * 表示 ) ,而 在 参与 group by 操作 的 维 属性 具有 
非 Al 值 。 

例如 ,对 于 一 个 具有 三 个 维 属性 A、B、C 和 一 个 度量 属性 M 的 数据 集 R(A,B,C,M)， 
其 对 应 的 数据 立方 体 是 在 维 属性 集 { },{A},{B},{C},{AB},{AC}),{BC},{ABC} 上 分 别 对 
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度量 属性 进行 聚集 操作 后 的 并 集 。 其 中 {} 表 示 进 行 聚集 运算 {* ,* ,* ,聚集 函数 (MD)}, {A) 
表示 进行 聚集 运算 {A, * , * ,聚集 函数 (MD)) 等 。 

这 些 聚 集运 算 与 操作 结果 是 数据 仓库 中 的 一 种 高 度 综合 级 数据 ,实质 上 是 进行 了 数据 
的 浓缩 (压缩 ) ,也 可 称 为 泛 化 。 最 终 所 获得 的 这 些 数据 立方 体 可 用 于 决策 支持 、 知 识 发 现 ， 


或 其 他 许多 应 用 。 


例如 ,对 表 3. 12 所 示 的 超市 的 基本 数据 集 POS(product,type,counter,price) ,前 三 个 
属性 分 别 代表 (产品 名 、 类 型 .柜台 ) 为 维 属性 ,对 度量 属性 价格 price 进行 取 平 均值 
(Caverage) 的 聚集 运算 , 则 通过 Cube 操作 可 以 得 到 一 个 具有 三 个 维 属性 和 一 个 度量 属性 的 
数据 立方 体 Dpos, 如 表 3.13 所 示 。 也 可 以 用 三 维 方式 来 体现 立方 体 的 特征 (省 略 )。 


表 3.12 基本 数据 集 POS 


product type counter price 
KONKA TV SET 01 1000 
TCL TV SET 01 1500 
NOKIA PHONE 01 2000 
表 3.13 全 聚集 的 数据 立方 体 Dpos 
product type counter M(AVG(price)) 

x x x 1500 
KONKA x 关 1000 
TCL x x 1500 
NOKIA x x 2000 
共 TV SET 关 1250 

x PHONE x 2000 

关 x 01 1500 
KONKA TVSET 关 1000 
TCL TV SET x 1500 
NOKIA PHONE 关 2000 
* TV SET 01 1250 

共 PHONE 01 2000 
KONKA x 01 1000 
TCL 共 01 1500 
NOKIA x 01 2000 
KONKA TV SET 01 1000 
TCL TVSET 01 1500 
NOKIA PHONE 01 2000 


一 般 来 说 ,在 商业 应 用 中 ,全 聚集 的 数据 占据 的 空间 是 原始 数据 空间 的 数 百倍 ,另外 它 
的 更 新 维护 也 需要 花费 很 长 时 间 , 所 以 计算 聚集 时 应 在 聚集 所 占用 的 空间 .CPU 处 理 时 间 
和 OLAP 系统 查询 响应 时 间 之 间 有 一 个 权衡 。 故 数据 立方 体 的 构建 是 在 存储 空间 、 响 应 查 
询 时 间 和 数据 更 新 维护 的 消耗 等 几 个 主要 因素 之 间 寻 求 有 效 的 折 中 , 即 部 分 物化 : 按照 一 
定 的 规则 选择 数据 立方 体 的 一 个 子 集 进 行 预先 计算 。 这 种 选择 是 存储 空间 和 响应 时 间 的 一 
种 折 中 。 

典型 的 压缩 型 数据 立方 体 ,包括 冰山 立方 体 、 紧 凑 数 据 立 方 体 、 外 过 片段 立方 体 等 。 随 
着 流 式 数据 处 理 技术 的 发 展 , 流 立 方 体 生成 方法 越 来 越 受 到 领域 研究 者 的 关注 。 


2. 典型 的 压缩 型 数据 立方 体 


(1) 冰山 立方 体 

在 冰山 立方 体 的 生成 计算 中 , 仅 聚 集 高 于 (或 低 于 ) 某 个 阅 值 的 子 立方 体 ,这 是 一 种 部 分 
构建 立方 体 的 解决 方法 。 这 种 计算 方法 的 研究 动机 是 数据 立方 体 的 空间 多 数 被 低 ( 或 高 ) 度 
量 值 的 数据 单元 所 占据 ,而 这 些 数据 单元 往往 是 分 析 者 很 少 关心 的 内 容 。 这 种 方法 的 优点 
是 能 够 减少 构建 数据 单元 所 占用 的 存储 空间 。 

例如 ,在 表 3. 12 中 , 设 定 聚 集运 算 条 件 : MCAVG(price)) 委 1250, 其 冰山 立方 体 如 
表 3. 14 所 示 。 


表 3.14 基本 数据 集 POS 的 冰山 立方 体 


product type counter M(AVG(price)) 
KONKA * 关 1000 

* TV SET 关 1250 
KONKA TV SET * 1000 

关 TVSET 01 1250 
KONKA * 01 1000 
KONKA TV SET 01 1000 


对 比 表 3. 14 和 表 3. 13 ,可 以 看 出 冰山 立方 体 是 全 聚集 立方 体 的 部 分 。 

(2) 紧凑 数据 立方 体 生 成 方法 

紧凑 数据 立方 体 生成 方法 的 一 个 重要 特点 是 能 够 保持 数据 立方 体 的 钻 取 操 作 的 语义 。 
这 种 紧凑 数据 立方 体 生成 方法 在 压缩 的 方式 和 表现 形式 上 表现 出 有 不 同 的 特征 ,其 中 包括 
浓缩 立方 体 (Condensed cube) 、 商 立方 体 (Quotient cube) 等 ,这些 都 是 近年 来 出 现 的 一 系列 
新 型 的 数据 立方 体 的 存储 结构 。 

浓缩 立方 体 计算 方法 的 基本 原理 是 ,在 某 些 属性 或 组 合 下 的 一 个 元 组 相对 于 其 他 元 组 
具有 唯一 性 , 则 称 为 基本 单一 元 组 (BST,Base Single Tuple)。 当 它 的 超 集 ( 增 加 属性 组 合 ) 
也 是 BST, 且 都 是 取 同 一 度量 值 ,在 聚集 运算 时 ,可 以 把 这 些 属性 的 度量 值 对 应 的 元 组 压缩 
成 一 条 元 组 存储 。 

例如 , 表 3. 13 中 的 product 属性 下 的 每 个 元 组 都 是 基本 单一 元 组 BST, 由 于 其 属性 值 
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(KONKA,TCL,NOKIA) 都 是 唯一 的 ,同时 ,属性 { product } 的 所 有 超 集 { product,type )， 
{ product,counter } ,{ product,type,counter } 也 是 BST, 且 都 具有 相同 值 , 如 { KONKA， 
*x ,x,1000 },{ KONKA,TV SET, * ,1000 },{ KONKA, * ,01,1000 },{ KONKA,TV 
SET,01,1000 } , 故 可 以 将 这 些 元 组 压缩 存储 为 一 条 元 组 { KONKA,* , * ,1000 }。 同 理 ， 
属性 { type } 中 ,其 属性 值 为 PHONE 的 元 组 是 BST, 它 和 它 的 超 集 也 可 以 压缩 存储 为 一 条 
元 组 { * ,PHONE, * ,2000 }。 经 过 这 样 的 浓缩 后 , 表 3. 12 的 基本 数据 集 POS 的 浓缩 立方 
体 如 表 3. 15 所 示 。 


表 3.15 基本 数据 集 POS 的 浓缩 立方 体 


product type counter M(AVG(price)) 
入 x x 1500 
KONKA 六 x 1000 
TEE # x 1500 
NOKIA # x 2000 
# TV SET x 1250 
# PHONE x 2000 
x x 01 1500 
# TV SET 01 1250 


对 比 表 3. 15 和 表 3. 13, 可 以 看 出 浓缩 立方 体 是 全 聚集 立方 体 的 有 效 浓 缩 。 

由 于 在 一 般 的 应 用 中 , 当 属 性 个 数 较 多 时 ,BST 是 广泛 存在 的 ,一 般 来 说 ,其 压缩 率 可 
以 达到 30% 一 70%。 

(3) 外 过 片段 立方 体 

在 高 维 情况 下 ,需要 预先 计算 大 量 的 数据 单元 ,同时 增加 了 数据 立方 体 的 构建 和 维护 复 
杂 性 。 一 种 思路 是 仅 预先 计算 涉及 少数 维度 的 子 立 方 体 ,就 形成 整个 数据 立方 体 的 一 个 外 
壳 。 当 涉及 其 他 维度 的 时 候 , 则 需要 临时 计算 聚集 结果 。 相 关 研 究 者 提出 仅 计 算 其 片段 的 
方法 ,基于 主要 的 观察 是 在 OLAP 过 程 中 ,只 涉及 少数 的 几 个 维度 。 

外 壳 片 段 立方 体 的 计算 方法 的 主要 思想 是 : 给 定 高 维 数据 集 , 将 维 划 分 为 互 不 相交 的 
维 片段 ,并 且 将 每 个 片段 转换 成 为 倒 排 索引 ,然后 构造 外 壳 片 段 立方 体 。 这 样 就 可 以 利用 预 
先 计算 的 片段 ,动态 组 装 和 计算 所 需 的 子 立 方 体 单元 。 这 种 方法 的 优点 是 减少 了 计算 数据 
立方 体 所 需 的 数据 空间 ,适用 于 高 维 数据 的 处 理 , 同 时 能 够 快速 响应 涉及 少量 维度 的 查询 。 

(4) 流 式 数据 立方 体 

现实 世界 的 动态 环境 中 产生 的 信息 ,构成 了 连续 不 断 的 流 式 数据 。 它 分 为 事务 型 与 度 
量 型 两 种 。 

事务 型 流 式 数 据 : 它 产 生 于 实体 之 间 的 交互 日 志 , 如 大 型 综合 网 站 的 访问 日 志 、 金 融 交 
易 信用 记录 等 。 

度量 型 流 式 数据 : 它 来 自 于 监控 某 个 实体 的 状态 ,如 传感器 网 络 监控 数据 .气象 观测 数 
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据 等 .大 型 通信 网 络 的 异常 检测 .自然 环境 监测 数据 等 。 

用 户 从 连续 不 断 的 流 式 数据 中 发 现 不 同 层次 上 的 异常 模式 、 兴 趣 模 式 、 变 化 趋势 等 ,为 
实时 的 在 线 决策 提供 强 有 力 的 支持 。 

流 式 数据 立方 体 则 是 针对 流 式 数 据 的 多 维 分 析 提 出 来 的 解决 方法 。 流 式 数 据 立 方 体 模 
式 表示 为 SC 一 (T,D,M) ,其 中 了 为 时 间 维度 属性 ,D 为 非 时 间 维 度 性 集合 ,M 为 度量 属性 
集合 。 由 于 流 式 数 据 量 巨大 ,因此 需要 考虑 部 分 物化 策略 减少 存储 空间 消耗 。 一 般 通 过 兴 
趣 视图 子 集 选择 、 多 层次 时 间 窗 口 约束 和 适应 性 数据 单元 划分 等 策略 限定 流 立 方 体 所 占用 
的 存储 空间 。 


3.4.5 多 维 数据 分 析 的 MDX 语言 及 其 应 用 
1. MDX 语言 简介 


MDX(CMnulti Dimensional eXpressions, 多 维 表达 式 ) 是 联机 分 析 处 理 (OLAP) 和 数据 仓 
库 应 用 中 使 用 最 广泛 的 软件 语言 (维度 语言 )。MDX 语言 可 以 查询 和 管理 多 维 数据 仓库 ， 
MDX 表达 式 可 以 用 来 创建 新 的 计算 成 员 。 

在 语法 的 结构 上 ,MDX 与 SQL 都 包含 “选择 对 象 ”(select 子 句 ) “数据 源 ”(from 子 句 ) 
以 及 “指定 条 件 ”(where 子 句 ), 除 这 些 关 键 字 外 .MDX 还 结合 了 多 维 数据 集 ,指定 “维度 ” 
(On 子 句 ) 和 "创建 表达 式 计算 的 新 成 员 ”(MEMBER 子 句 )。 这 样 就 可 用 来 从 多 维 数据 集 
中 挖掘 出 指定 的 数据 ;MDX 语法 还 包含 功能 强大 的 函数 ,以 协助 数据 处 理 与 挖掘 。 具 体 说 
明 如 下 : 

(1) 关键 字 SELECT 后 带 需要 检索 内 容 的 子 句 。 

(2) 关键 字 ON 和 维度 (坐标 轴 ) 的 名 称 一 起 使 用 ,以 指定 数据 库 维度 显示 位 置 。 

(3) MDX 用 大 括号 { } 包 含 某 个 特定 维度 或 者 多 个 维度 的 一 组 元 素 。 一 个 维度 (度量 
维度 或 时 间 维 度 ) 的 多 个 元 素 间 用 逗号 (,) 隔 开 。 元 素 名 称 用 方 括号 [ ] 引 用 ,并 且 不 同 组 成 
部 分 之 间 用 点 号 (. ) 分 隔 。 

(4) 在 一 个 MDX 查询 中 ,不 同 查询 的 维度 (坐标 轴 ) 的 数量 可 能 不 同 。 前 三 个 坐标 轴 
以 columns .rows 及 pages 命名 ,更 多 的 坐标 轴 命 名 为 chapters、section 等 。 也 可 以 统一 用 
axis(0) ,axis(1) ,axis(2) 等 表示 坐标 轴 。 

(5) MDX 查询 中 FROM 子 句 指明 用 于 查询 数据 的 多 维 数据 集 。 

(6) WHERE 子 句 指定 在 列 或 行 (或 者 其 他 的 坐标 轴 ) 上 没有 出 现 的 多 维 数 据 集 的 
成 员 。 


2. 多 维 数据 查询 


在 多 维 数据 集中 用 得 最 多 的 查询 是 对 多 维 数据 的 切片 查询 ,通过 不 同 角 度 的 切片 来 发 
现 问题 。 下 钻 操作 一 般 用 来 查询 问题 的 原因 。 下 面 分 别 通 过 切片 查询 和 向 下 钻 取 操作 的 例 
子 进 行 说 明 。 
例 1: 切片 查询 。 
在 多 维 数据 集 Sales 中 .顾客 所 在 的 MA 州 ,对 时 间 2009 年 Q1(1 季度 ) 和 Q2(2 季度 ) 
的 销售 额 Dollar Sales 和 销售 数量 Unit Sales 的 情况 进行 切片 查询 。 
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MDX 语言 的 切片 查询 语句 : 


SETRCT 
{ [Measures]. [Dollar Sales], [Measures]. [Unit Sales]} 
On columns, 

{ [Time] . [Ql, 2009], [Time]. [Q2, 2009] } 

Qn rows 

FROM [Sales] 

WHERE ([Customer]. [MA]) 


切片 查询 结果 见 表 3. 16。 
表 3.16 多 维 数据 集 Sales 的 切片 查询 


Dollar Sales Unit Sales 
Q1,2009 96,949.1 3866 
Q2,2009 104,510.2 4125 


例 2: 向 下 钻 取 操 作 。 

一 种 常用 的 查询 是 获得 一 个 成 员 的 子 成 员 。 这 样 做 的 目的 是 执行 一 个 向 下 钻 取 操 作 ，， 
即 获得 基于 一 个 共同 父 成 员 的 范围 内 的 成 员 。MDX 提供 . Children 函数 来 完成 这 个 操作 。 

下 面 将 对 多 维 数据 集 Sales 中 顾客 所 在 的 TX 州 进 行 向 下 钻 取 查询 : 工具 产品 
[Product] . [Tools] 成 员 和 它 的 子 成 员 (Tooll ,…,Tool5) ,以 及 2009 年 Q3(3 季度 ) 成 员 
的 子 成 员 (7、8、9) 三 个 月 的 销售 数量 [Measures] . [Unit Sales] 情 况 。 

MDX 语言 的 向 下 钻 取 操作 语句 如 下 : 

SELRCT 

{ [Time]. [Q3, 2009]. Children } on colums, 

{ [Product]. [Tools], [Product]. [Tools]. Children } 


On rows 
FROM Sales 
WHERE ([Custamer]. [TX], [Measures]. [Unit Sales]) 
Tools 成 员 及 其 子 成 员 报表 的 各 行 上 显示 ,如 表 3. 17 所 示 。 
表 3.17 使 用 . Children 的 查询 结果 
July,2009 aug,2009 sep,2009 
Tools 176 266 205 
Tooll 32 ai 
Tool2 78 85 
Tool3 57 56 
Tool4 48 67 
Tool5 39 64 
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3. 创建 新 的 计算 成 员 


计算 成 员 是 通过 对 维 成 员 进行 设 定 的 表达 式 计算 后 ,所 产生 的 新 成 员 。 创 建新 的 计算 
成 员 需 要 引入 关键 字 WITH , 称 为 “WITH 部 分 ”。WITH 部 分 的 位 置 在 SELECT 关键 字 
之 前 。 

在 一 个 维度 上 定义 一 个 计算 成 员 的 核心 语法 是 : 

MMBER 成 员 标 识 符 ”AS 成员 计 算 公 式 "Lproperties…] 

上 面 语法 中 的 三 个 主要 部 分 是 : 

。 成 员 标 识 符 , 它 指定 新 建成 员 的 名 称 以 及 定位 该 计算 成 员 的 维度 和 层次 结构 。 

。 成 员 计算 公式 , 它 通 过 公式 获得 新 计算 成 员 的 结果 。 

。 可 选 属 性 ,提供 额外 的 计算 、 显 示 以 及 其 他 的 信息 。 

成 员 标 识 符 必须 包含 在 已 知 的 维度 名 称 中 ,作为 其 一 个 新 的 组 成 部 分 。 成 员 计 算 公式 
中 很 可 能 涉及 多 个 维度 的 成 员 计算 公式 ,在 各 维度 间 如 何 控制 计算 公式 的 顺序 呢 ? 对 每 个 
计算 成 员 都 有 一 个 相关 的 求解 顺序 (SOLVE ORDER) ,给 定 一 个 数字 (整数 0.1 等) , 它 表 
示 该 成 员 的 计算 优先 级 。 

例如 ,在 例 1 多 维 数据 集中 的 Dollar Sales 和 Unit Sales 两 个 成 员 的 基础 上 ,增加 一 个 
名 为 [Avg Sales Price] 的 新 成 员 ( 进 行 除 (/) 运 算 ); 在 原 有 的 Q1,2009 和 Q2,2009 两 个 成 
员 的 基础 上 增加 一 个 名 为 LQ1 to Q2 Growthj] 的 新 成 员 ( 进 行 减 (一 ) 运 算 )。 对 这 两 个 新 的 
计算 成 员 的 求解 顺序 给 予 规定 , 先 算 平均 价格 ,后 算 增长 量 。 

MDX 创建 新 计算 成 员 语 句 为 : 


WITH 

MEMBFR [Measures] . [avg Sales Price] AS 

' [Measures] . [Dollar Sales]/[Measures]. [Unit Sales] 
SOLVE CRDER= 0 

MEMBFR [Time] . [QI to Q2 Growth] RS 

" [Time]. [Q2，2009]- [Time]. [Ql, 2009]" 

SOLVE CRDER= 1 

SETLRCT 

{ [Measures]. [Dollar Sales]，[Measures]. [Unit sales], 
[Measures] . [avg Sales Price]} 

on columns， 

{ [Time]. [QL，2009]，[Time] . [QP，2009]，[Time] . [Ql to CQP Growth] } 
On rows 

FERCM [Sales] 

WHERE ([Customer]. [MA]) 


生成 的 新 计算 成 员 表 见 表 3. 18。 
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表 3.18 利用 除法 和 减法 两 公式 生成 的 新 计算 成 员 表 


Dollar Sales Unit Sales Avg Sales Price 
Q1,2009 96,949.1 3866 25.08 
Q2,2009 104,510.2 4125 25,33 
Ql to Q2 Growth 7561. 1 259 0. 26 


说 明 : 在 上 面 的 MDX 创建 新 计算 成 员 语句 中 , 若 两 计算 公式 颠倒 一 下 顺序 ,其 第 3 行 
第 3 列 的 元 素 的 值 就 不 是 0. 26 ,而 是 29. 19 了 。 可 见 计算 公式 的 顺序 对 计算 结果 是 有 影 


响 的 。 


4. MDX 语言 更 多 功能 


MDX 语言 中 ,允许 的 算术 操作 符 有 : 加 十 、 减 一 、 乘 * 、 除 /、 插 号 ( )。 

允许 的 函数 有 : Avg() 平 均值 ;Aggregate() 聚 合 函 数 定义 的 聚合 值 ;Count() 值 或 元 组 
的 个 数 ;Sum() 值 的 和 ;Max() 最 大 值 ;Median() 集 的 中 位 值 ;Min() 最 小 值 ;Stdev() 值 的 样 
本 标准 差 ;StdevP() 值 的 总 体 标准 差 ;Var() 值 的 样本 方差 ;VarP() 值 的 总 体 方差 等 等 。 

允许 额外 的 数字 计算 函数 有 : Abs (num),num 的 绝对 值 ;Exp(N),e 的 N 次 罕 ; 
Factorial(N),N 的 阶乘 ;Ln(nun),Num 的 自然 对 数 等 等 。 

MDX 语言 还 具有 更 高 级 的 功能 ,能 帮助 公司 进行 保险 索赔 分 析 .产品 质量 控制 和 顾客 
购物 偏好 等 更 高 层次 的 决策 分 析 。 在 此 不 多 介绍 ,有 兴趣 的 读者 可 参考 有 关 资 料 。 


上 co 二 


习 题 3 


. 联机 分 析 处 理 (OLAP) 的 简单 定义 是 什么 ?” 它 体现 的 特征 是 什么 ? 
. OLAP 准则 中 主要 准则 有 哪些 ? 

什么 是 维 ? 关系 数据 库 是 二 维 数据 吗 ? 如 何 理解 多 维 数据 ? 
MDDB 与 RDBMS 有 什么 不 同 ? 说 明 各 自 的 特点 。 

. 比较 ROLAP 与 MOLAP 在 数据 存储 、 技 术 及 特点 上 的 不 同 。 
. HOLAP 数据 模型 的 特点 是 什么 ? 

. 举例 说 明 多 维 数据 显示 的 两 种 不 同方 法 。 

. 举例 说 明 多 维 类 型 结构 (MTS) 。 

. 举例 说 明 四 维 数据 显示 。 

. 举例 说 明 六 维 数据 显示 。 

. 多 维 数据 显示 的 经 验 规则 是 什么 ? 

. 举例 说 明 OLAP 的 多 维 数据 分 析 的 切片 操作 。 
. 举例 说 明 OLAP 的 多 维 数据 分 析 的 钻 取 功 能 。 
. 说 明 四 种 不 同 的 多 维 数据 分 析 方 法 的 作用 。 

. 广义 OLAP 功能 如 何 提 高 多 维 数据 分 析 能 力 ? 
. 说 明 数 据 立方 体 的 概念 。 
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如 何 理解 数据 立方 体 就 是 数据 仓库 结构 图 中 综合 数据 层 ? 

为 什么 要 研究 数据 立方 体 的 压缩 技术 ? 

说 明 浓缩 立方 体 的 压缩 方法 和 效果 。 

多 维 数据 分 析 的 MDX 语言 与 数据 库 的 SQL 语言 有 什么 不 同 ? 
MDX 语言 如 何 完成 向 下 钻 取 操作 ? 

MDX 语言 如 何 完成 表达 式 计 算 ? 


2 rr\ SB VD EENTLN NN ee 
第 4 章 ”数据 合 库 设计 与 开发 
4.1 数据 仓库 分 析 与 设计 


数据 仓库 分 析 与 设计 由 需求 分 析 、 概 念 模 型 设计 逻辑 模型 设计 与 物理 模型 设计 四 个 部 
分 组 成 。 


4.1.1 需求 分 析 


数据 仓库 是 一 个 向 用 户 提 供 战略 信息 的 环境 ,从 而 为 用 户 提供 决策 支持 。 数 据 仓库 不 
同 于 现行 的 事务 处 理 系统 (数据 库 应 用 系统 )。 事 务 处 理 系 统 完成 每 日 的 业务 运行 ,用 户 所 需 
的 功能 ,信息 内 容 、 使 用 方式 ,系统 有 清楚 的 定义 。 数 据 仓库 不 能 清楚 地 定义 用 户 的 需求 , 既 不 
能 准确 定义 用 户 真正 想 从 数据 仓库 中 得 到 哪些 信息 ,也 不 能 说 明 他 们 如 何 使 用 和 处 理 这 些 信 
息 。 但 是 ,用 户 可 以 说 明 哪 些 是 重要 的 衡量 指标 ,如 何 将 各 种 信息 综合 起 来 为 战略 决策 服务 。 

例如 ,市 场 部 经 理 感 兴趣 的 是 每 个 月 、 某 个 地 区 按照 销售 部 门 .参照 历史 数据 和 计划 数 
据 , 了 解 新 产品 创造 多 少 利润 。 销 售 经 理 需 要 按照 产品 种 类 ,每 天 、 每 星期 、 每 月 进行 汇总 ， 
按照 销售 地 区 或 按 销售 渠道 进行 统计 。 财 务 经 理 在 制定 费用 列表 时 ,要 与 预算 比较 ,按照 每 
月 .每 季度 和 每 年 .按照 预算 资金 定义 .按照 地 区 ,对 全 公司 进行 汇总 统计 。 

数据 仓库 的 需求 分 析 是 数据 仓库 设计 的 基础 。 需 求 分 析 的 任务 是 通过 详细 调查 现实 世 
界 要 处 理 的 对 象 ( 企 业 、 部 门 、 用 户 等 ) ,充分 了 解 原 系统 (人 工 系统 或 计算 机 系统 ) 工 作 概 况 ， 
明确 用 户 的 各 种 需求 (包括 当前 的 需求 和 长 远 的 需求 ) ,为 设计 数据 仓库 服务 。 概 括 地 说 , 需 
求 分 析 要 明确 用 哪些 数据 经 过 分 析 来 实现 用 户 的 决策 支持 需求 。 

数据 仓库 用 户 包括 高 层 主管 .部门 经 理 IT 专业 人 员 等 。 通过 对 用 户 的 调查 ,对 数据 仓 
库 系 统 需 要 确定 的 问题 如 下 。 

(1) 确定 主题 域 

Q@ 明确 对 于 决策 分 析 最 有 价值 的 主题 领域 有 哪些 。 

@ 每 个 主题 域 的 商业 维度 是 哪些 ?每 个 维度 的 粒度 层次 有 哪些 ? 

@ 制定 决策 的 商业 分 区 是 什么 ? 

@ 不 同 地 区 需要 哪些 信息 来 制定 决策 ? 

@@ 对 哪个 区 域 提供 特定 的 商品 和 服务 ? 

(2) 支持 决策 的 数据 来 源 

Q@ 哪些 源 数据 (数据 库 ) 与 商品 主题 有 关 ? 

@ 在 已 有 报表 和 在 线 查询 (OLTP) 中 得 到 什么 样 的 信息 ? 

@ 提供 决策 支持 的 细节 程度 是 怎样 的 ? 

(3) 数据 仓库 的 成 功 标准 和 关键 性 能 指标 

@ 衡量 数据 仓库 成 功 的 标准 是 什么 ? 


让 


@ 有 哪些 关键 的 性 能 指标 ? 如 何 监 控 ? 

@ 对 数据 仓库 的 期 望 是 什么 ? 

@ 对 数据 仓库 的 预期 用 途 有 哪些 ? 

@ 对 计划 中 的 数据 仓库 的 考虑 要 点 是 什么 ? 

(4) 数据 量 与 更 新 频率 

@ 数据 仓库 的 总 数据 量 有 多 少 ? 

@ 决策 支持 所 需 的 数据 更 新 频率 是 多 少 ? 时 间 间 隔 是 多 长 ? 

@ 每 种 决策 分 析 与 不 同时 间 的 标准 对 比如 何 ? 

@ 数据 仓库 中 的 信息 需求 的 时 间 界 限 是 什么 ? 

通过 需求 分 析 ,明确 为 决策 支持 所 需要 的 数据 ,包括 如 下 内 容 : 

(1) 数据 源 

建立 数据 仓库 需要 使 用 源 系 统 的 数据 ,从 这 些 源 系统 中 收集 、 合 并 和 整合 数据 ,正确 地 
转换 这 些 数据 , 装 人 到 数据 仓库 中 。 

数据 源 中 的 数据 包括 : 

Q@ 可 用 的 数据 源 ( 数 据 库 ); 

@ 数据 源 的 数据 结构 ; 

@ 数据 源 的 位 置 ; 

@ 数据 源 的 计算 机 环境 ; 

@ 数据 抽取 过 程 ; 

@ 可 用 的 历史 数据 。 

(2) 数据 转换 

数据 仓库 中 的 数据 是 为 决策 分 析 服 务 ,而 源 系 统 的 数据 为 业务 处 理 服务 。 这 样 需要 决 
定 如 何 正确 地 将 这 些 源 数据 转换 成 适合 数据 仓库 存储 的 数据 。 

在 需求 分 析 文档 中 要 包括 数据 转换 的 细节 ,不 但 要 明确 从 什么 地 方 得 到 数据 ,还 要 描述 
在 将 数据 载 入 数据 仓库 之 前 的 合并 ,转化 和 分 拆 的 过 程 。 

(3) 数据 存储 

通过 对 用 户 的 采访 ,会 发 现 数据 仓库 所 需要 的 数据 的 详细 程度 ,包括 足够 的 关于 存储 需 
求 的 信息 ,估计 数据 仓库 需要 多 少 历史 和 存档 数据 。 

(4) 决策 分 析 

需求 分 析 文档 应 该 包括 用 户 决 策 分 析 的 需求 , 即 : 

@ 向 下 层 钻 取 分 析 ; 

@ 向 上 层 钻 取 分 析 ; 

@ 横向 钻 取 分 析 ; 

@ 切片 分 析 ; 

@ 特别 查询 报表 。 


4.1.2 概念 模型 设计 


将 需求 分 析 过 程 中 得 到 的 用 户 需 求 抽 象 为 计算 机 表示 的 信息 结构 , 即 概念 模型 。 它 是 
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从 客观 世界 (用 户 ) 到 计算 机 世界 的 一 个 中 间 层 次 , 即 用 户 需 求 的 数据 模型 。 

概念 模型 的 特点 是 : 

(1) 能 真实 反映 现实 世界 ,能 满足 用 户 对 数据 的 分 析 , 达 到 决策 支持 的 要 求 , 它 是 现实 
世界 的 一 个 真实 模型 。 

(2) 易于 理解 ,有 利于 和 用 户 交换 意见 ,在 用 户 的 参与 下 ,能 有 效 地 完成 对 数据 仓库 的 
成 功 设计 。 

(3) 易于 更 改 , 当 用 户 需求 发 生变 化 时 ,容易 对 概念 模型 进行 修改 和 扩充 。 

(4) 易于 向 数据 仓库 的 数据 模型 ( 星 型 模型 ) 转 换 。 

概念 模型 最 常用 的 表示 方法 是 实体 一 关系 法 (E-R 法 ) ,这 种 方法 用 E-R 图 作为 它 的 描 
述 工 具 。E-R 图 描述 的 是 实体 以 及 实体 之 间 的 联系 ,用 长 方形 表示 实体 ,在 数据 仓库 中 就 表 
示 主 题 , 在 框 内 写 上 主题 名 ,椭圆 形 表 示 主 题 的 属性 ,并 用 无 向 边 把 主题 与 其 属性 连接 起 来 ; 
用 菱形 表示 主题 之 间 的 联系 , 萎 形 框 内 写 上 联系 的 名 字 , 用 无 向 边 把 菱形 分 别 与 有 关 的 主题 
连接 ,在 无 向 边 旁 标 上 联系 的 类 型 。 若 主题 之 间 的 联系 也 具有 属性 , 则 把 属性 和 菱形 也 用 无 
向 边 连 接 上 。 

由 于 E-R 图 具有 良好 的 可 操作 性 ,形式 简单 ,易于 理解 ,便于 与 用 户 交流 ,对 客观 世界 
的 描述 能 力也 较 强 , 在 数据 库 设 计 方面 更 得 到 广泛 的 应 用 。 因 为 目前 的 数据 仓库 一 般 建立 
在 关系 数据 库 的 基础 之 上 ,与 数据 库 的 概念 模型 相 一 致 ,采用 E-R 图 作为 数据 仓库 的 概念 
模型 仍然 是 较为 适合 的 。 

通过 一 个 例子 来 说 明 数据 仓库 的 概念 模型 的 设计 ,有 两 个 主题 : 商品 和 客户 ,主题 也 是 
实体 。 

商品 有 如 下 属性 组 : 

商品 的 固有 信息 (商品 号 .商品 名 类别、 价格 等 ); 

商品 库存 信息 (商品 号 .库房 号 .库存 量 .日 期 等 ); 

品 销售 信息 (商品 号 、 客 户 号 、 售 价 、 销 售 日 期 .销售 量 等 ); 

其 他 信息 等 。 

客户 有 如 下 属性 组 ， 

客户 固有 信息 (客户 号 .客户 名 .性别 .年龄 .文化 程度 .住址 .电话 等 ); 

客户 购物 信息 (客户 号 、 商 品 号 、 售 价 、 购 买 日 期 .购买 量 等 )。 

其 中 商品 的 销售 信息 与 用 户 的 购物 信息 是 一 致 的 ,它们 是 两 个 主题 之 间 的 联系 。 

将 两 个 主题 的 概念 模型 用 E-R 图 画 出 ,如 图 4. 1 所 示 。 
4.1.3 逻辑 模型 设计 

逻辑 模型 设计 是 把 概念 模型 设计 好 的 E-R 图 转换 成 计算 机 所 支持 的 数据 模型 。 数 据 
仓库 在 计算 机 中 的 数据 模型 是 星 型 模型 。 这 样 ,数据 仓库 的 逻辑 模型 设计 主要 是 将 用 E-R 
图 表示 的 概念 模型 转换 成 星 型 模型 。 

数据 仓库 逻辑 模型 设计 的 主要 工作 为 : 

。 主题 域 进行 概念 模型 (E-R 图 ) 到 逻辑 模型 ( 星 型 模型 ) 的 转换 ; 

。 粒度 层次 划分 ; 
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图 4.1 商品 与 客户 两 主题 的 概念 模型 


。 关系 模式 定义 ; 
。 定义 记录 系统 。 


1. 主题 域 进 行 概念 模型 到 逻辑 模型 的 转换 


在 概念 模型 设计 中 ,可 能 确定 了 多 个 主题 域 。 但 是 ,数据 仓库 的 设计 一 般 是 从 一 个 或 几 
个 主题 逐步 完成 的 。 选 择 第 一 个 主题 域 要 足够 大 ,使 该 主题 能 完成 围绕 该 主题 的 决策 分 析 
需要 。 但 又 要 足够 精练 ,便于 开发 和 较 快 实施 。 

例如 ,概念 模型 设计 时 ,确定 了 “商品 "和 “客户 ”两 个 主题 。 其 中 “商品 ”对 于 商场 来 说 是 
更 基本 的 业务 对 象 。 商 品 的 业务 有 销售 采购、 库存 等 ,其 中 商品 销售 是 最 主要 的 业务 。 它 
是 进行 决策 分 析 最 主要 的 方面 。 因 而 ,“ 商 品 ” 主 题 比 “客户 ”主题 更 重要 。 

星 型 模型 的 设计 步骤 如 下 : 

(1) 确定 决策 分 析 需 求 

数据 仓库 是 面向 决策 分 析 的 ,决策 需求 是 建立 多 维 数据 模型 的 依据 ,例如 分 析 销 售 额 趋 
势 .对 比 商 品 销售 量 、 促 销 手段 对 销售 的 影响 等 。 

(2) 从 需求 中 识别 出 事实 

在 决策 主题 确定 的 情况 下 ,选择 或 设计 反映 决策 主题 业务 的 表 , 例 如 在 “商品 ?主题 中 ， 
以 “销售 数据 ”作为 事实 表 。 

(3) 确定 维 

确定 影响 事实 的 各 种 因素 ,对 销售 业务 的 维 一 般 包括 商店 、 地 区 ,部门 ,城市 .时 间 、 商 品 
等 ,如 图 4.2 所 示 。 

销售 数据 


总 
区 


销售 数据 和 维 
图 4.2 销售 业务 的 多 维 数据 


a 0 


(4) 确定 数据 汇总 的 水 平 

存在 于 数据 仓库 中 的 数据 包括 汇总 的 数据 。 数 据 仓 库 中 对 数据 不 同 粒度 的 综合 ,形成 
了 多 层次 的 数据 结构 。 例 如 ,对 于 时 间 维 ,可 以 用 “年 "“ 月 ”或 者 “日 ”等 不 同 水 平 进行 汇总 。 

(5) 设计 事实 表 和 维 表 

设计 事实 表 和 维 表 的 具体 属性 。 在 事实 表 中 应 该 记录 哪些 属性 是 由 维 表 的 数量 决定 
的 。 一 般 来 说 ,与 事实 表 相 关 的 维 表 的 数量 应 该 适中 , 太 少 的 维 表 会 影响 查询 的 质量 ,用 户 
得 不 到 需要 的 数据 , 太 多 的 维 表 又 会 影响 查询 的 速度 。 

(6) 按 使 用 的 DBMS( 数 据 库 管 理 系统 ) 和 用 户 分 析 工 具 , 证 实 设计 方案 的 有 效 性 

根据 系统 使 用 的 DBMS ,确定 事实 表 和 维 表 的 具体 实现 。 由 于 不 同 的 DBMS 对 数据 存 
储 有 不 同 的 要 求 , 因 此 设计 方案 是 否 有 效 还 要 放 在 DBMS 中 进行 检验 。 

(7) 随 着 需求 变化 修改 设计 方案 

随 着 应 用 需求 的 变化 ,整个 数据 仓库 的 数据 模式 也 可 能 会 发 生变 化 。 因 此 在 设计 之 初 ， 
充分 考虑 数据 模型 的 可 修改 性 可 以 降低 系统 维护 的 代价 。 

从 概念 模型 的 E-R 图 转换 成 逻辑 模型 的 星 型 模型 实例 说 明 如 下 : 

(1) 业务 数据 的 E-R 图 

实体 关系 如 图 4. 3 所 示 。 


地 区 商店 销售 
地 区 号 ”| mm | 商店 号 |] mm | 销售 日 其 
地 区 名 商店 名 商店 号 
地 址 商品 号 
城市 销售 数量 
省 万 | 销售 单位 
邮编 
四 地 区 号 | 
商品 类 二 
商品 类 号 | | 品 存货 
商品 类 名 商品 号 星期 
部 门 号 ”| 商品 名 商店 污 
商品 类 号 商品 号 
数量 


图 4.3 实体 关系 (E-R) 图 


(2) E-R 图 向 多 维 表 的 转换 

该 问题 建立 多 维 表 模 型 时 , 先 确定 商品 维和 地 区 维 。 商 品 维 包 括 部 门 、 商 品 和 商品 大 
类 ,地 区 维 包括 地 区 和 商店 ,忽略 存货 实体 ,建立 销售 事实 。 在 E-R 图 中 不 出 现 的 时 间 , 在 
多 维 模型 中 增加 时 间 维 ,如 图 4.4 所 示 。 

在 多 维 模 型 中 ,实体 与 维 之 间 建 立 映射 关系 ,联系 多 个 实体 的 实体 就 成 为 事实 ,此 处 销 
售 实体 作为 事实 ,其 他 实体 作为 维 ,然后 用 维 关键 字 将 它 转 换 为 星 型 模型 ,如 图 4. 5 所 示 。 

其 中 ,地 区 维 是 综合 了 “地 区 ”和 “商店 ”两 个 实体 ,它们 有 一 个 层次 的 差别 。 将 “商店 ” 作 
为 1 级 ,“ 地 区 ”作为 2 级 ,该 维 的 关系 表 如 表 4. 1 所 示 。 


A 


商品 维 时 间 维 
部 门 年 
下 下 
商品 大 类 月 
下 
商品 周 
下 
日 
销售 事实 
图 4.4 ER 图 向 多 维 模型 的 转换 
时 间 销售 事实 地 区 
时 间 键 时 间 键 一 一 一 | 地 理 位 置 键 
时 间 说 明 地 理 位 置 名 
日 期 地 区 号 
星期 商店 号 
月 级 别 号 
年 
商品 
商品 键 
商品 
部 门 号 
商品 类 号 
级 别 号 
图 4.5 利用 维 关键 字 制 定 的 星 型 模型 
表 4.1 地 区 维 关系 表 
地 理 位 置 键 地 理 位 置 名 地 区 号 商 店 号 级 别 号 
100 东北 地 区 1 2 
105 中 西部 2 2 
110 中 南 地 区 3 2 
115 沈阳 和 2204 | 
120 西安 和 2349 lL 
这 5 长 春 2542 
130 广州 条 2211 和 


商品 维 综合 了 “商品 "和 “商品 类 ”两 个 实体 ,它们 也 有 一 个 层次 的 差别 , 同 地 区 维 一 样 
处 理 。 
在 各 维 中 ,只 有 部 门 、 商 品类 、 地 区 .商店 的 编号 没有 具体 的 说 明 , 为 了 打印 报表 将 增加 
这 些 编 号 的 名 称 说 明 , 即 部 门 名 、 商 店名 等 ,在 维 表 中 增加 这 些 说 明 , 即 修改 该 星 型 模型 如 
站 


图 4.6 所 示 。 


地 区 
时 间 地 理 位 置 刍 
时 间 键 i 
时 癌 说 训 区 必 商品 
时 级 别 号 部 门 号 
部 门 名 
1 商品 类 号 
人 商品 类 名 
时 间 键 
地 理 位 置 键 
商品 键 
销售 数量 


图 4.6 修改 后 的 星 型 模型 


2. 粒度 层次 划分 


所 谓 粒 度 是 指数 据 仓库 中 数据 单元 的 详细 程度 和 级 别 。 数 据 越 详细 ,粒度 越 小 ,层次 级 
别 就 越 低 ;数据 综合 度 越 高 ,粒度 越 大 ,层次 级 别 就 越 高 。 在 传统 的 事务 处 理 系统 中 ,对 数据 
的 处 理 和 操作 都 是 在 详细 数据 级 别 上 的 , 即 最 低级 的 粒度 。 但 是 在 数据 仓库 环境 中 主要 是 
分 析 弄 处理 ,粒度 的 划分 将 直接 影响 数据 仓库 中 的 数据 量 以 及 所 适合 的 查询 类 型 。 一 般 需 
要 将 数据 划分 为 详细 数据 、 轻 度 综合 、 高 度 综合 三 级 或 更 多 级 粒度 。 不 同 粒度 级 别 的 数据 用 
于 不 同类 型 的 分 析 处 理 。 粒 度 的 划分 是 数据 仓库 设计 工作 的 一 项 重要 内 容 ,粒度 划分 是 否 
适当 是 影响 数据 仓库 性 能 的 一 个 重要 方面 。 

进行 粒度 划分 ,首先 要 确定 所 有 在 数据 仓库 中 建立 的 表 , 然 后 估计 每 个 表 的 大 约 行 数 。 
在 这 里 只 能 估计 一 个 上 下 限 。 需 要 明确 的 是 ,粒度 划分 的 决定 性 因素 并 非 总 的 数据 量 ,而 是 
总 的 行 数 。 因 为 对 数据 的 存 取 通 常 是 通过 存 取 索 引 来 实现 的 ,而 索引 是 对 应 表 的 行 来 组 织 
的 , 即 在 某 一 索引 中 每 一 行 总 有 一 个 索引 项 ,索引 的 大 小 只 与 表 的 总 行 数 有 关 , 而 与 表 的 数 
据 量 无 关 。 

例如 商场 数据 仓库 的 例子 ,一 个 商场 可 以 经 营 上 千 种 甚至 更 多 的 商品 ,商品 的 来 源 也 有 
许多 ,每 日 的 商品 销售 数据 更 是 不 计 其 数 , 每 时 每 刻 都 在 生成 新 的 记录 ,进入 “商品 ”主题 的 
数据 量 是 很 大 的 ,因而 最 好 采用 多 重 粒 度 , 如 对 商品 销售 的 分 析 主 要 是 进行 销售 统计 以 及 销 
售 趋势 分 析 , 因 此 ,定义 商品 销售 数据 的 综合 层次 要 更 丰富 一 些 , 如 每 种 商品 ( 按 商 品 号 ) 的 
周 统计 销售 数据 月 统计 销售 数据 以 及 季 统 计 销 售 数据 ,每 类 商品 ( 按 商品 类 型 ) 的 周 统计 销 
售 数据 月 统计 销售 数据 以 及 季 统 计 销 售 数据 等 等 。 


3. 关系 模式 定义 


数据 仓库 的 数据 最 终 将 以 关系 数据 库 显示 和 存储 。 每 个 主题 都 是 由 多 个 表 来 实现 的 ， 
这 些 表 之 间 依 靠 主题 的 公共 码 键 联 系 在 一 起 ,形成 一 个 完整 的 主题 。 在 进行 概念 模型 设计 
和 


时 ,就 确定 了 数据 仓库 的 基本 主题 ,并 对 每 个 主题 的 公共 码 键 .基本 内 容 等 做 了 描述 。 在 这 
一 步 里 ,将 要 对 选 定 的 当前 实施 的 主题 进行 模式 划分 ,形成 多 个 表 , 并 确定 各 个 表 的 关系 
模式 。 

如 对 “商品 ”主题 ,考虑 粒度 划分 层次 ,有 如 下 关系 表 的 内 容 。 

公共 码 键 : 商品 号 。 

(1) 商品 固有 信息 

商品 表 ( 商 品 号 、 商 品名 、 类 型 .颜色 、 价 格 、……) 一 一 细节 级 

(2) 商品 销售 信息 

销售 表 1( 商 品 号 、 客 户 号 .销售 日 期 \ 售 价 、 销 售 量 ……) 一 一 细节 级 

销售 表 2( 商 品 号 、 时 间 段 1 、 销 售 总 量 、……… ) 一 一 综合 级 


4. 定义 记录 系统 


数据 仓库 中 的 数据 来 源 于 多 个 已 经 存在 的 事务 处 理 系 统 及 外 部 系统 。 定 义 记录 系统 是 
建立 数据 仓库 中 的 数据 以 源 系统 中 的 数据 的 对 照 记录 。 由 于 各 个 源 系 统 的 数据 都 是 面向 应 
用 的 ,不 能 完整 地 描述 企业 中 的 主题 域 ,并 且 多 个 数据 源 的 数据 存在 着 许多 不 一 致 ,因此 要 
从 数据 仓库 的 概念 模型 出 发 ,结合 主题 的 多 个 表 的 关系 模式 ,需要 确定 现 有 系统 的 哪些 数据 
能 较 好 地 适应 数据 仓库 的 需要 。 这 就 要 求 选择 最 完整 .最 及 时 、 最 准确 、 最 接近 外 部 实体 源 
的 数据 作为 记录 系统 ,同时 这 些 数据 所 在 的 表 的 关系 模式 最 接近 于 构成 主题 的 多 个 表 的 关 
系 模式 。 记 录 系 统 的 定义 要 记 入 数据 仓库 的 元 数据 。 

以 商场 的 数据 仓库 为 例 ,“ 商 品 ” 主 题 的 有 关内 容 分 散在 原 有 的 销售 子 系统 、 库 存 子 系 
统 、 采 购 子 系统 等 事务 处 理 的 数据 库 中 。 不 同 数据 源 有 关 商 品 的 信息 有 相交 的 部 分 ,可 能 存 
在 不 一 致 的 信息 。 从 记录 系统 的 要 求 出 发 ,选择 原 有 的 分 散 数据 库 中 最 接近 外 部 实体 源 的 
数据 定义 为 数据 仓库 的 记录 系统 。 商 品 主题 的 记录 系统 在 元 数据 中 可 描述 如 表 4. 2 所 示 。 


表 4.2 记录 系统 的 定义 


主题 名 属性 名 数据 源 系统 源 表 名 源 属性 名 
商品 商品 号 库存 子 系统 商品 商品 号 
商品 商品 名 库存 子 系统 商品 商品 名 
商品 类 别 库存 子 系统 商品 类 别 
商品 客户 号 销售 子 系统 客户 客户 号 
商品 销售 日 期 销售 子 系统 销售 日 期 
商品 售 价 销售 子 系统 销售 单价 
商品 销售 量 销售 子 系统 销售 数量 
商品 库存 量 库存 子 系统 库存 库存 量 
商品 仓库 号 库存 子 系统 仓库 仓库 号 
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说 明 : 数据 仓库 中 主题 中 的 属性 名 要 统一 规范 化 。 各 源 系 统 中 的 数据 库 中 相关 属性 
名 ,去 掉 不 要 的 属性 项 ,作为 数据 仓库 和 源 系统 的 对 比 说 明 ( 记 录 系 统 的 定义 ) 放 人 元 数 
据 中 。 


4.1.4 物理 模型 设计 


数据 仓库 的 物理 模型 设计 是 为 好 辑 模型 设计 的 数据 模型 确定 一 个 最 适合 应 用 要 求 的 物 
理 结构 (包括 存储 结构 和 存 取 方法 )。 

物理 模型 的 设计 所 做 的 工作 是 估计 存储 容量 ,确定 数据 的 存储 结构 ,确定 索引 ,确定 数 
据 存放 位 置 ,确定 存储 分 配 。 它 是 数据 存储 的 数据 模型 。 


1. 估计 存储 容量 
物理 模型 重点 在 于 物理 存储 , 随 着 数据 仓库 的 增 大 需要 知道 最 初 和 后 来 需要 多 少 存储 


空间 。 
(1) 对 每 一 个 数据 库 表 确定 数据 量 
@ 行 (记录 行 ) 数 的 初始 估计 ; 
@ 行 的 平均 长 度 ; 
@ 估计 行 的 每 月 增长 数 ; 
@ 表 的 初始 大 小 ,以 浪 字 节 (MB) 计 算 ; 
@@ 表 按 时 间 6 个 月 和 12 个 月 存储 的 数据 大 小 。 
(2) 对 所 有 的 表 确 定 索 引 
Q@ 索引 的 个 数 ; 
@ 索引 对 最 初 .6 个 月 和 12 个 月 存储 数据 所 需要 的 空间 。 
(3) 估计 临时 存储 
Q@ 排序 、 合 并 需要 的 临时 空间 ， 
@ 准备 区 (大 量 数据 交换 的 场所 ) 内 的 临时 文件 ; 
@ 准备 区 内 的 永久 文件 。 


2. 确定 数据 的 存储 计划 


确定 数据 的 存储 计划 包括 以 下 内 容 。 

(1) 建立 汇总 (聚集 ) 计 划 

假设 数据 仓库 用 户 有 80% 的 查询 需要 汇总 信息 ,这 样 就 应 该 建立 汇总 表 。 如 果 数 据 仓 
库 只 存储 最 小 粒度 的 数据 ,每 次 查询 遍历 所 有 的 明细 记录 ,然后 生成 汇总 信息 ,就 要 用 去 大 
量 的 时 间 。 汇 总 (聚集 ) 数 据 表 必须 包括 在 物理 模型 中 。 应 该 建立 多 少 汇总 表 , 这 要 根据 查 
询 需 求 来 决定 。 

(2) 确定 数据 分 区 方案 

假设 有 4 个 维 表 , 平 均 每 个 表 有 50 行 ,对 于 这 些 维度 表 中 的 行 ,潜在 的 事实 表 将 有 超过 
600 万 行 记录 。 事 实 表 非 常 巨大 ,大 表 非 常 难以 管理 。 

分 区 可 以 将 表 分 解 成 易于 管理 的 小 表 。 对 事实 表 的 分 区 并 不 是 简单 地 分 解数 量 。 一 般 
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采用 按 垂直 分 区 或 水 平分 区 ( 即 按 不 同 维度 分 区 或 按时 间 顺 序 分 区 ) ,制定 分 区 准则 (如 按 产 
品 分 组 ) 。 除 事实 表 分 区 外 , 维 表 也 分 区 。 每 个 表 的 分 区 个 数 是 多 少 ,在 表 分 区 后 ,使 查询 知 
道 到 所 需 的 分 区 内 进行 。 

(3) 建立 聚 类 选项 

在 数据 仓库 中 ,很 多 的 数据 访问 是 基于 对 大 量 数据 的 顺序 访问 ,这 可 以 通过 聚 类 来 提高 
性 能 。 聚 类 是 将 相关 的 数据 放 在 存储 介质 的 相 邻 物理 块 上 进行 管理 。 这 种 安排 使 相关 联 的 
数据 能 够 在 一 次 输入 操作 中 全 部 取出 ,提高 查询 效率 。 


3. 确定 索引 策略 


在 数据 仓库 中 由 于 数据 量 很 大 ,需要 对 数据 的 存 取 路 径 进 行 仔细 设计 和 选择 ,建立 专用 
的 复杂 的 索引 ,以 获得 最 高 的 存 取 效率 ,因为 在 数据 仓库 中 的 数据 是 不 常 更 新 的 ,也 就 是 说 
每 个 数据 存储 都 是 稳定 的 。 虽 然 建立 索引 有 一 定 的 代价 ,但 是 一 旦 建立 就 几乎 不 需要 再 维 
护 索 引 。 

传统 的 数据 库 采 用 B-Tree 索引 , 它 是 一 个 高 效 的 索引 ,如 图 4.7 所 示 。B 树 是 一 个 平 
衡 (balance) 树 , 即 每 个 叶 结 点 到 根 结 点 的 路 径 长 度 相同 。B 树 索 引 是 一 个 多 级 索引 。 每 个 
非 叶 结 点 包括 多 个 按 顺序 排列 的 关键 字 值 : 

Ky<. Ks< "< Ka 

每 个 关键 字 有 一 个 对 应 的 指针 P;(i 二 1,2,…,n 一 1) 指 向 下 层 结 点 的 指针 桶 (多 个 关键 

字 和 对 应 的 指针 ) 最 小 关键 字 值 。 叶 结 点 的 关键 字 值 的 指针 指向 一 个 文件 记录 。 
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图 4.7 传统 B-Tree 索引 


4. 确定 数据 存放 位 置 


数据 仓库 中 ,同一 个 主题 的 数据 并 不 要 求 存 放 在 相同 的 介质 上 。 在 进行 物理 设计 时 , 常 
常 要 按 数据 的 重要 程度 .使 用 频率 以 及 对 响应 时 间 的 要 求 进行 分 类 ,并 将 不 同类 的 数据 分 别 
存储 在 不 同 的 存储 设备 中 。 重 要 程度 高 ,经常 存 取 并 对 响应 时 间 要 求 高 的 数据 就 存放 在 高 
速 存储 设备 上 ,如 硬盘 ; 存 取 频率 低 或 对 存 取 响应 时 间 要 求 低 的 数据 则 可 以 放 在 低速 存储 设 
备 上 ,如 磁盘 或 磁带 。 
数据 存放 位 置 的 确定 还 要 考虑 到 的 一 些 其 他 方法 ,如 决定 是 否 进行 合并 表 ;是否 对 一 些 
。76 。 


经 常 性 的 应 用 建立 数据 序列 ;对 常用 的 、 不 常 修改 的 表 或 属性 是 否 允 许 匈 余 存 储 。 如 果 采 用 
了 这 些 技术 ,就 要 记 入 元 数据 。 


5. 确定 存储 分 配 


物理 存储 中 以 文件 . 块 和 记录 来 实现 。 一 个 文件 包括 很 多 块 , 每 个 块 包括 若干 条 记录 。 
文件 中 的 块 是 数据 库 的 数据 和 内 存 之 间 1/O 传输 的 基本 单位 ,在 那里 对 数据 进行 操作 。 

增 大 文件 中 的 块 大 小 ,可 以 将 更 多 的 记录 和 行 放 入 一 个 块 中 ,因为 一 次 读 操 作 可 以 读 入 
更 多 的 记录 ,大 块 减少 了 读 操作 的 次 数 。 但 是 ,大 块 结构 对 读 取 记录 少时 ,操作 系统 也 将 读 
入 很 多 不 必要 的 信息 到 内 存 中 ,影响 了 内 存 管理 。 

用 一 个 简 例 来 说 明 逻 辑 模型 和 物理 模型 的 内 容 , 如 图 4.8 所 示 。 


逻辑 模型 物理 模型 
产品 维 表 名 称 类 型 长 度 | 注释 
和 产品 维 表 包括 公司 所 有 产品 的 信息 
Lu Product-Key | integer |10 | 主键 
ee Product-Name | char 25 “| 产品 名 称 
Product-SKu | char 20 “| 库存 单位 
订单 事实 表 销售 员 维 表 包括 不 同 地 区 的 所 有 销售 员 信息 
| 订单 键 ” | Salpers-Key | integer |15 | 主键 
订单 名 Salpers-Name | char 30 “| 销售 员 姓 名 
相同 Territory char 20 “| 销售 员 所 在 区 域 
销售 额 Region char 20 “| 所 在 地 区 
订单 成 本 订单 事实 表 包括 公司 收 到 的 所 有 订单 
Order-Key integer |10 | 订单 键 
销售 员 维 表 Order-Name | char 20 “| 订单 名 称 
销售 员 键 Product-ref integer |10 | 参考 产品 主键 
人 Salpersref ”| integer |15 | 参考 销售 员 主 键 
地 区 Order-Amount| Num 8, 2 | 销售 额 
Order-Cost Num 8,2 | 订单 成 本 


图 4.8 逻辑 模型 与 物理 模型 


4.1.5 数据 仓库 的 索引 技术 


索引 技术 的 作用 在 于 提高 数据 仓库 访问 效率 。 下 面 介绍 三 种 重要 的 数据 仓库 索引 技 
术 : 位 索引 技术 .标识 技术 与 广义 索引 。 


1. 位 索引 技术 


Sybase 公司 推出 的 数据 仓库 Sybase IQ, 采 用 位 索引 (Bit-Wise) 技 术 , 它 在 处 理 复杂 的 
查询 时 , 比 传统 数据 库 索 引 B-Tree 有 了 突破 。 
(1) Bit-Wise 索引 技术 
Bit-Wise 索引 技术 在 存储 数据 的 方式 上 与 传统 的 关系 数据 库 有 所 不 同 . 它 不 是 以 “ 行 记 
录 ” 而 是 以 “ 列 ” 为 单位 存储 数据 , 即 对 数据 进行 垂直 分 割 。 对 于 每 一 个 记录 的 字段 满足 查询 
站 过 芝 六 


条 件 的 真 假 值 用 “1? 或 “0 的 方式 表示 ,或 者 用 该 字段 中 不 同 取 值 ( 即 多 位 二 进 制 ) 来 表示 。 
一 般 辅 助 决策 的 查询 往往 仅 涉及 大 量 数据 记录 中 的 少数 列 ,因而 不 需要 访问 原始 数据 
就 能 快速 获得 查询 结果 。 显 然 ,利用 字段 的 不 同 取 值 也 能 快速 进行 数据 聚 类 、 分 组 , 求 最 大 


值 . 最 小 值 及 平均 值 等 。 

对 于 高 度 可 选择 的 数 ( 称 高 基数 ), 如 姓名 或 地 址 等 可 能 
有 数 万 个 选择 值 ,用 (1,0) 真 假 值 来 索引 是 不 合适 的 。 

例如 ,检索 “美国 加 州 有 多 少男 性 未 申请 保险 ?” 

在 数据 库 中 ,每 个 记录 中 对 于 性 别 是 男性 的 字段 取 值 为 
1, 女 性 为 0, 是 加 州 的 字段 取 值 为 1, 其 他 为 0, 对 于 未 参加 保 
险 的 字段 取 值 为 1, 参加 的 取 值 为 0。 该 三 列 字 段 值 为 1 或 0。 
对 三 字段 均 满 足 条件 记 录 进 行 累 加 。 对 下 面 的 简单 数据 库 利 
用 Bit-Wise 技术 得 到 有 两 个 记录 满足 条 件 ,如 图 4.9 所 示 。 

(2) B-Tree 技术 与 Bit-Wise 索引 技术 对 比 

Bit-Wise 索引 技术 比 B-Tree 技术 能 提高 响应 速度 10 一 
100 倍 。 

@ B-Tree 索引 技术 特点 

。 按 行 存储 数据 ; 

。 针对 具体 查询 来 建立 查询 驱动 的 索引 机 制 ; 

。 存储 被 索引 的 字段 数据 ; 

。 一列 允许 一 个 索引 ; 

。 适合 于 高 基数 字段 。 

@ Bit-Wise 索引 技术 特点 
按 列 存储 数据 ; 
针对 实际 特征 建 索引 ， 
不 存储 实际 索引 字段 内 容 
一 列 允许 多 个 索引 ; 
。 数据 压缩 技术 和 位 操作 技术 ; 
。 适合 于 低 基 数字 段 ,兼顾 高 基数 字段 。 
@ 实例 比较 


性 别 | 保险 | 州 


M Y MA 


CA 


EE PP 一 


虽 | 号 | 时 


N 
时 IL 
N CA 


未 保险 | 加 州 


0 


男 
1 
1 
0 
1 


0 
1 1 
0 0 
1 1 


图 4 


.9 Bit-Wise 索引 


以 检索 “美国 加 州 有 多 少男 性 未 申请 保险 ?” 为 例 ,假设 数据 库 有 10M 记录 ,每 个 记录 长 


800 字 节 ,每 一 页 16K 字 节 。 
。 按 传统 的 关系 数据 库 的 检索 
需要 经 过 50 万 次 I/O 操作 。 
。 按 Bit-Wise 检索 


对 于 10M 个 记录 建立 三 列 的 Bit-Wise 索引 , 共 占 (10MbitX3 列 /8) 字 节 的 空间 ,每 页 
16K 字 节 , 则 这 些 索 引 仅 占 235 页 。 存 取 这 些 索引 只 需 进 行 235 次 I/O 操作 。 


@ B-Tree 不 适合 数据 仓库 
。 B-Tree 只 适合 于 高 基数 (Cardinality) 字 段 
。78 。 


对 于 高 基数 字段 ,如 物资 编号 .顾客 编号 等 具有 唯一 的 数据 值 ,B-Tree 很 适合 。 但 对 于 
低 基 数字 段 就 毫 无 价值 ,如 性 别 字段 ,只 有 男女 两 个 值 ,建立 B-Tree 索引 就 没有 意义 。 

。 B-Tree 索引 增加 了 在 数据 仓库 中 构造 和 维护 索引 的 代价 

由 于 B-Tree 索引 包含 实际 数据 和 其 他 信息 (如 指针 等 ) ,因而 使 得 索引 需 占 用 一 定 的 空 
间 和 时 间 。 如 果 构 造 所 有 相关 的 索引 ,数据 仓库 就 会 占 2 一 4 倍 原始 数据 空间 。 当 成 批 插 入 
删除 时 ,索引 就 非常 敏感 ,有 可 能 失去 平衡 并 降低 性 能 。 通 常 来 说 ,10% 一 15%% 的 数据 修改 
会 导致 重建 索引 。 

。 B-Tree 索引 不 适合 复杂 查询 

B-Tree 用 于 简单 查询 及 已 知 公共 存 取 路 径 的 环境 下 才 有 优点 ,而 在 数据 仓库 应 用 中 ， 
通常 是 复杂 的 查询 ,并 经 常 带 有 分 组 及 聚合 条 件 。 此 时 ,B-Tree 索引 往往 无 能 为 力 。 


2. 标识 技术 


使 用 标准 的 数据 库 技 术 来 储存 数据 仓库 是 非常 昂贵 的 。 较 好 的 替代 方法 是 用 基于 标识 
的 技术 来 储存 数据 仓库 。 这 种 技术 根本 不 同 于 关系 数据 库 技术 。 利 用 关系 数据 库 技术 , 当 
加 入 一 个 记录 到 系统 中 时 ,会 追加 此 数据 的 一 个 物理 代表 块 到 磁盘 上 。 假 设 一 些 标准 数据 


库 管理 系统 中 的 样本 记录 如 下 : 

姓名 籍贯 职称 年 龄 
记录 1 陈 文 东 江西 教授 56 
记录 2 何 玉 辉 ”河北 讲师 32 
记录 3 李 宝 湖南 副教授 a8 
记录 4 施 东 江苏 讲师 28 
记录 5 曹 文 杰 湖南 副教授 36 
记录 6 赵 玉 吉林 讲师 ep 
记录 7 黄 小 斌 江苏 讲师 28 
记录 8 赛 英 花 山东 副教授 32 
记录 9 彭 宏 江西 讲师 25 
记录 10  ” 雇 宇 宙 ”湖南 教授 42 


每 次 完成 一 个 事务 时 ,就 会 添加 一 个 新 记录 到 标准 的 数据 库 中 。 数 据 的 缩放 比例 是 线 
性 的 ,因为 数据 量 是 存放 多 少 记录 的 一 个 函数 。 但 是 在 如 上 面 所 示 的 小 型 的 ,简单 的 数据 库 
查看 数据 记录 ,会 发 现在 整个 数据 库 中 有 数据 元 余 。 例 如 籍贯 “湖南 出现 了 三 次 ,年 龄 “32” 
则 出 现 了 3 次 ,职称 "讲师 ?出 现 了 5 次 。 因 此 这 个 数据 库 中 有 明显 的 物理 元 余 。 

假设 可 以 为 此 数据 库 中 的 每 个 实体 创建 一 个 标识 。“ 江 西 " 在 籍贯 中 是 01 标识 。 “28” 
在 年 龄 中 是 02 标识 。“ 讲 师 ” 在 职称 名 中 有 一 个 03 标识 。 上 面 的 数据 库 可 以 被 简化 为 一 系 
列 标识 : 


姓名 籍贯 职称 年 龄 
陈 文 东 01 江西 01 教授 ”01 25 01 
何 玉 辉 02 河北 02 副教授 02 28 02 
李 宝 “03 湖南 03 讲师 “03 32 03 


。79 。 


施 东 04 江苏 04 36 04 


曹 文 杰 05 吉林 05 37 05 
赵 玉 06 山东 06 42 06 
黄 小 斌 07 56 07 
赛 英 花 08 
彭 宏 ”09 
廖 宇宙 10 


一 旦 建立 完 这 些 标识 ,数据 库 可 被 精简 如 下 : 
记录 1 01,01,01,07 
记录 2 02,02,03,03 
记录 3 03,03,02,05 
记录 4 04,04,03,02 
记录 5 05,03,02,05 
记录 6 06,05,03,03 
记录 7 07,04,03 ,02 
记录 8 08,06,02,03 
记录 9 09,01,03,01 
记录 10 10,03,01,06 
记录 被 标识 以 后 ,存储 这 些 记 录 的 空间 将 大 大 缩小 。 此 外 ,数据 量 越 大 (也 就 是 记录 量 
越 多 ) ,标准 的 数据 库 和 标识 数据 库 的 存储 需求 差异 也 就 越 大 。 换 名 话说 ,记录 量 越 多 ,基于 
标识 的 数据 库 的 优势 就 越 明显 。 使 用 标识 数据 库 技术 时 ,有 有 几 项 非常 有 利 的 应 用 : 
。 大量 压 缩 数 据 。 
。 数据 越 多 ,标识 数据 比 标准 的 、 基 于 记录 的 数据 更 有 利 。 
。 因为 数据 被 大 量 压缩 ,所 以 整个 数据 库 可 以 存放 在 内 存 中 。 
。 可 以 索引 所 有 的 行 和 所 有 的 列 。 
一 旦 将 基于 标识 的 数据 库存 放 在 内 存 中 ,处 理 速 度 会 得 到 很 大 的 提高 。 根 据 不 同 的 细 
节 , 查 询 的 速度 可 以 提高 两 到 三 个 (甚至 更 多 ) 数 量 级 。 提 高 了 处 理 速度 ,很 多 工作 就 会 成 为 
现实 。 例 如 ,分 析 员 可 以 很 容易 地 进行 扫描 整个 数据 库 的 查询 。 
大 量 压 缩 数 据 的 另 一 个 主要 益处 就 是 索引 所 有 属性 成 为 可 能 。 一 旦 可 以 索引 所 有 属 
性 ,对 数据 仓库 的 探索 分 析 就 没有 限制 。 分 析 员 可 以 用 任何 需要 的 方式 查看 任意 字段 。 查 
询 的 速度 就 像 这 样 : 如 果 分 析 员 要 精练 结果 ,可 以 重新 书写 一 个 查询 公式 并 重新 运行 。 所 
有 的 这 些 重 写 公 式 表 示 和 重新 计算 都 可 以 在 很 短 的 时 间 里 完成 ,这 个 时 间 远 远 少 于 标准 的 
基于 记录 的 数据 库 所 需要 的 时 间 。 事 实 上 ,探索 数据 仓库 的 功效 依赖 于 基于 标识 的 数据 库 
技术 。 


3. 广义 索引 


对 数据 仓库 的 一 个 很 广泛 的 应 用 问题 是 “这 个 月 销售 最 好 和 最 差 的 10 种 商品 是 哪 
些 ?”, 可 以 设计 这 么 一 块 “ 黑 板 ”, 在 上 面 标明 当月 销售 最 好 和 最 差 的 10 种 商品 的 名 称 或 者 
。80 。 


它们 相关 记录 的 存放 地 址 。 这 块 < 黑板 ?就 是 通常 所 说 的 “广义 索引 ”。 

数据 仓库 的 数据 量 巨大 ,所 以 要 依靠 各 种 各 样 的 索引 技术 来 提高 涉及 大 数据 量 的 查询 
的 速度 “广义 索引 ?在 处 理 如 上 的 最 值 ( 最 大 值 或 最 小 值 ) 问 题 时 ,效果 是 非常 明显 的 ,也 较 
易于 实现 。 在 从 数据 库 环境 抽取 数据 并 向 数据 仓库 中 装载 的 同时 ,就 可 以 根据 用 户 的 需要 
建立 许多 这 样 的 “广义 索引 ?。 每 次 数据 仓库 装载 时 ,就 重新 生成 这 些 "广义 索引 ?的 内 容 。 
这 样 就 并 不 需要 为 了 建立 “广义 索引 ”而 去 扫描 数据 仓库 。 而 且 这 些 索引 都 非常 小 ,开销 也 
相当 小 ,但 它 给 应 用 所 带 来 的 便利 却 是 显而易见 的 。 对 于 一 些 经 常 性 的 查询 ,利用 一 个 规模 
小 得 多 的 “广义 索引 ?总 要 比 去 搜索 一 个 大 得 多 的 关系 表 方 便 得 多 。 

但 是 ,同时 出 现 的 问题 就 是 随 着 数据 仓库 “年 龄 ”的 增长 以 及 数据 仓库 随时 间 变 化 的 特 
性 ,这 种 “广义 索引 ”的 数目 也 就 会 成 倍 地 增长 ,管理 这 些 数 目 多 、 规 模 小 、 名 目 繁多 的 “广义 
索引 ”也 就 成 为 一 件 非常 环 手 的 事情 。 这 就 需要 在 元 数据 中 完整 地 定义 说 明 这 些 “ 广 义 索 
引 ”。 应 用 需要 时 ,首先 去 查找 元 数据 再 去 找 相 应 的 “广义 索引 ”或 表 。 


4.2 数据 仓库 开发 


4.2.1 数据 仓库 开发 过 程 


数据 仓库 的 开发 主要 是 围绕 数据 仓库 功能 展开 的 ,数据 仓库 的 主要 功能 包括 数据 获取 ， 
数据 存储 和 决策 分 析 , 这 三 个 功能 模块 组 成 了 数据 仓库 的 体系 结构 。 随 着 决策 需求 的 扩大 ， 
数据 仓库 的 数据 将 迅速 增长 。 数 据 仓 库 的 开发 要 适应 这 种 变化 ,采用 螺旋 式 周期 性 的 开发 
方法 比较 合适 。 

数据 仓库 的 开发 过 程 分 为 4 个 阶段 12 个 具体 步骤 ,如 图 4. 10 所 示 。 


1 
| 
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图 4.10 数据 仓库 的 开发 过 程 


元 省 


4.2.1.1 分 析 与 设计 阶段 


数据 仓库 开发 需要 明确 如 下 问题 : 
。 数据 仓库 开发 的 范围 多 大 ? 这 包括 数据 的 范围 .技术 的 作用 (要 用 到 新 技术 吗 ?) 以 
及 时 间 上 的 考虑 (开发 工作 需要 在 多 长 时 间 内 完成 ?) 。 
。 企业 业务 方面 的 驱动 因素 是 什么 ,要 解决 的 业务 问题 是 什么 ? 
。 开发 的 数据 仓库 的 决策 支持 能 力 是 什么 ? 
数据 仓库 开发 的 分 析 和 设计 阶段 包括 需求 分 析 、 概 念 设计 、 人 逻辑 设计 和 物理 设计 4 个 
步 又 。 


1. 需求 分 析 


数据 仓库 的 需求 分 析 是 根据 用 户 的 决策 支持 需求 ,确定 决策 主题 域 ,并 分 析 主 题 域 的 商 
业 维 度 , 同 时 分 析 支 持 决策 的 数据 来 源 , 以 及 向 决策 主题 数据 的 转换 ;整个 数据 仓库 的 数据 
量 大 小 以 及 数据 更 新 的 频率 确定 决策 分 析 方 法 等 。 

需求 分 析 是 设计 和 实现 数据 仓库 的 基础 。 

例如 ,银行 业 数据 仓库 的 需求 分 析 包 括 : 

(1) 决策 支持 需求 : 在 竞争 性 的 市 场 中 银行 决策 者 认识 到 , 它 必 须 利用 其 日 常 活动 中 
包含 的 大 量 信息 ,预测 信用 卡 使 用 状况 和 利润 率 的 能 力 。 

(2) 信息 需求 : 对 最 终 用 户 进行 调查 以 确定 哪些 信息 有 助 于 销售 或 有 助 于 调整 银行 的 
信息 政策 。 

(3) 业务 需求 : 定义 销售 信息 处 理 、 信 息 的 类 型 和 销售 渠道 。 

(4) 用 户 访问 需求 : 确定 用 户 访问 数据 仓库 所 需 的 时 间 ,以 及 数据 访问 的 偏好 。 

(5) 选择 主题 : 选择 一 个 主题 区 一 一 “信用 卡 ”。 

(6) 初始 规模 : 确定 主题 域 的 数据 量 。 


2. 概念 设计 


在 数据 仓库 的 概念 模型 设计 中 ,需要 确定 主题 域 及 其 内 容 。 利 用 需求 分 析 的 结果 建立 
概念 模型 , 即 对 每 个 决策 主题 与 属性 以 及 主题 之 间 的 关系 用 E-R 图 模型 表示 出 来 。E-R 图 
能 有 效 地 将 现实 世界 表示 成 信息 世界 , 它 也 有 利于 向 计算 机 的 表示 形式 进行 转化 。 

例如 ,银行 业 信用 卡 主题 域 分 析 。 

(1) 主题 域 范围 : 确定 了 “信用卡 ” 主 题 域 ,对 某 些 实体 ,如 顾客 ,要求 它 在 这 一 主题 域 
发 挥 作用 。 

(2) 所 需 细 节 水 平 : 为 支持 概括 和 趋势 计算 ,需要 存 人 持 卡 人 的 日 常 活动 。 

(3) 初步 概括 表 : 对 “信用 卡 ” 主 题 需要 建立 初步 概括 表 , 按 行业 和 地 理 特征 进行 概括 ， 
将 概括 时 段 确定 为 每 月 。 


3. 逻辑 设计 


在 多 辑 模型 设计 中 ,需要 分 析 主 题 域 , 将 概念 模型 (E-R 图 ) 转 换 成 逻辑 模型 , 即 计算 机 
和 加 人 2 各 


表示 的 数据 模型 。 数 据 仓库 的 数据 模型 一 般 采 用 星 型 模型 。 

逻辑 设计 中 还 需要 进行 数据 粒度 层次 的 划分 ; 星 型 模型 中 事实 表 、 维 表 的 关系 模式 定 
义 ; 数 据 转换 的 记录 系统 的 定义 。 

银行 业 信 用 卡 主题 的 逻辑 模型 是 多 维 表 的 星 型 模型 ,需要 将 概念 模型 的 E-R 图 转换 成 
星 型 模型 。 


4. 物理 设计 


数据 仓库 的 物理 模型 设计 是 对 逻辑 模型 设计 的 数据 模型 确定 物理 存储 结构 和 存 取 方 
法 。 数 据 仓库 的 星 型 模型 在 计算 机 中 仍 用 关系 型 数据 库存 储 。 

物理 设计 还 需要 进行 存储 容量 的 估计 ;确定 数据 存储 的 计划 ;确定 索引 策略 ;确定 数据 
存放 位 置 以 及 确定 存储 分 配 。 

例如 ,银行 业 的 物理 数据 库 设计 包括 : 

(1) 数据 库 设计 : 对 主题 中 的 事实 表 和 维 表 设 计数 据 库存 储 结构 和 存放 位 置 。 

(2) 概括 表 : 按 行业 代码 或 按 月 建立 一 个 概括 表 。 

(3) 索引 : 对 数据 仓库 中 的 数据 建立 多 种 索引 。 

(4) 建立 备份 和 恢复 准则 : 使 数据 仓库 能 适应 不 同 的 备份 和 恢复 。 为 了 防止 数据 损 
失 ,需要 对 文件 进行 备份 。 


4.2.1.2 数据 获取 阶段 


它 包 括 数 据 抽取 ` 数 据 转换 .数据 装载 3 个 步骤 。 

数据 仓库 中 的 数据 主要 来 源 于 事务 处 理 系统 中 的 数据 。 由 于 数据 仓库 对 数据 的 使 用 目 
的 与 事务 处 理 对 数据 的 使 用 的 目的 不 同 , 这 就 形成 了 对 事务 处 理 系统 中 的 数据 的 抽取 ,并 进 
行 转换 , 按 数据 仓库 的 数据 存储 要 求 装载 数据 。 


1. 数据 抽取 
数据 抽取 工作 主要 进行 数据 源 的 确认 ,确定 数据 抽取 技术 ,确认 数据 抽取 频率 ,按照 时 
间 要 求 抽 取 数 据 。 


源 系统 的 差异 性 ,如 计算 机 平台 、 操 作 系统 、 数 据 库 管 理 系统 、 网 络 协议 等 的 不 同 造成 了 
抽取 数据 的 困难 。 


2. 数据 转换 


数据 抽取 得 到 的 数据 是 不 能 直接 存 人 数据 仓库 的 。 数 据 转换 工作 包括 : 数据 格式 的 修 
正 .字段 的 解码 .单个 字段 的 分 离 、 信 息 的 合并 、 变 量 单位 的 转化 .时 间 的 转化 .数据 汇总 等 。 


3. 数据 装载 
经 过 数据 转换 的 数据 装 和 数据 仓库 有 三 种 类 型 : 
。 初始 装载 : 第 一 次 装 人 数据 仓库 。 


。 增 量 装 载 : 根据 定期 应 用 需求 装 入 数据 仓库 。 
0 


。 完全 刷新 : 完全 删除 现 有 数据 ,重新 装 和 人 新 的 数据 。 

数据 装载 时 ,一般 利用 选 定 的 批量 装载 程序 ,目的 是 高 效 和 及 时 地 把 数据 装载 到 数据 仓 
库 中 去 。 

例如 ,银行 业 的 数据 仓库 的 数据 获取 阶段 包括 : 

(1) 候选 数据 源 : 给 定数 据 需 求 和 粒度 需求 ,指定 日 常事 务 文 件 为 关键 数据 源 。 

(2) 完整 性 : 检查 数据 来 源 的 完整 性 。 

(3) 评价 : 对 数据 源 进行 评价 。 

(4) 数据 转换 : 将 数据 源 中 的 数据 变换 到 目的 地 去 ,同时 保持 数据 准确 性 和 完整 性 的 
过 程 。 

(5) 数据 装载 : 将 数据 转换 后 的 数据 加 载 到 目的 文件 和 平台 上 去 。 可 以 用 查询 来 验证 
业务 报表 的 内 容 。 

(6) 评审 过 程 : 开发 评审 程序 来 验证 是 否 所 有 的 信用 卡 事务 都 发 生 在 指定 的 时 间 期 
限 中 。 

(7) 元 数据 的 加 载 : 加 载 一 般 的 元 数据 外 ,还 要 加 载 有 特别 用 途 的 元 数据 ,如 在 特殊 环 
境 中 ,反映 数据 变化 的 元 数据 。 

(8) 系统 测试 : 系统 测试 用 以 保证 各 部 分 能 相互 配合 ,并 维护 数据 的 完整 性 。 


4.2.1.3 决策 支持 阶段 


数据 仓库 的 建立 就 是 要 达到 决策 支持 的 目的 。 决 策 支 持 阶段 包括 信息 查询 和 决策 分 析 
两 个 步骤 。 

数据 仓库 有 两 类 用 户 ,一 类 是 信息 查询 者 ,他 们 是 数据 仓库 的 主要 用 户 ,他 们 用 一 种 可 
预测 的 .重复 性 的 方式 使 用 数据 仓库 ,达到 他 们 的 常规 决策 支持 要 求 。 另 一 类 是 知识 探索 
者 ,他 们 是 数据 仓库 的 少量 用 户 ,他 们 用 一 种 完全 不 可 预测 的 非 重 复 性 的 方式 使 用 数据 仓 
库 , 达 到 他 们 挖掘 未 知 知 识 的 要 求 , 取 得 更 大 决策 支持 的 效果 。 这 两 类 不 同 的 用 户 使 数据 仓 
库 需 要 具有 不 同 的 性 能 或 工具 来 满足 他 们 的 要 求 。 


1. 信息 查询 


信息 查询 者 使 用 数据 仓库 能 发 现 目 前 存在 的 问题 。 例 如 ,发 现 公 司 正 在 流失 客户 。 

为 适应 信息 查询 者 的 要 求 ,数据 仓 库 一 般 采 用 如 下 方法 提高 信息 查询 效率 : 

(1) 创建 数据 陈列 

对 一 些 分 散 存 放 的 不 同 物理 位 置 的 数据 (如 不 同月 份 的 数据 ) ,创建 一 个 数据 陈列 ,将 相 
关 的 数据 (每 月 的 数据 ) 放 在 同一 个 物理 位 置 。 这 样 可 以 提高 可 预测 的 和 有 规律 数据 的 查询 
效果 。 

(2) 预 连接 表格 

对 于 两 个 或 多 个 表格 共享 一 个 公用 链 或 者 共同 使 用 的 表格 ,可 以 将 多 个 表格 合并 在 一 
个 物理 表格 中 ,提高 数据 的 访问 效率 。 

(3) 预 聚集 数据 

利用 "滚动 概括 ?结构 来 组 织 数 据 。 当 数据 输入 到 数据 仓库 时 ,以 每 天 为 基础 存储 数据 。 
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在 一 周 结束 时 ,以 每 周 为 基础 存储 数据 ( 即 累 加 每 天 的 数据 ) 。 月 末 时 , 则 以 每 月 为 基础 存储 
数据 。 通 过 这 种 方式 来 组 织 数 据 ,可 以 极 大 地 减少 存储 数据 所 需要 的 空间 并 潜在 地 提高 
性 能 。 

(4) 聚 类 数据 

聚 类 将 数据 放置 在 同一 地 点 ,这 样 可 以 提高 对 聚 类 数据 的 查询 。 


2. 知识 探索 


知识 探索 者 使 用 数据 仓库 能 发 现 问题 并 找 出 原因 。 例 如 , 找 出 流失 客户 的 原因 。 

知识 探索 者 通常 用 随意 的 、 非 重复 的 方式 来 查看 大 量 的 数据 。 为 满足 探索 者 对 大 量 数 
据 的 需要 ,一 般 创建 一 个 单独 的 探索 仓库 。 这 样 , 既 不 影响 数据 仓库 的 常规 用 户 , 又 可 以 采 
用 “标识 技术 ”把 数据 压缩 ,放置 在 内 存 中 ,提高 数据 分 析 速 度 。 

知识 探索 者 一 般 使 用 一 些 模型 来 帮助 决策 分 析 ,例如 客户 分 段 ,欺诈 监测 、 信 用 风险 、 客 
户 生存 期 .渠道 响应 、 推 销 响应 等 模型 。 通 过 模型 的 计算 来 得 出 一 些 有 价值 的 商业 知识 。 

知识 探索 者 大 量 采 用 数据 挖掘 工具 来 获取 商业 知识 。 例 如 ,通过 数据 挖掘 得 到 如 下 一 
些 知 识 : 

”哪些 商品 一 起 销售 好 ? 

。 哪些 商业 事务 处 理 可 能 带 有 欺诈 性 ? 

。 高 价值 客户 的 共同 点 是 什么 ? 

知识 探索 者 获取 的 知识 为 企业 领导 者 提供 决策 支持 ,对 保留 客户 减少 欺诈 、 提 高 公司 
利润 具有 重要 作用 。 


4.2.1.4 维护 与 评估 阶段 
该 阶段 包括 数据 仓库 增长 ,数据 仓库 维护 ,数据 仓库 评估 3 个 步骤 。 
1. 数据 仓库 增长 


数据 仓库 建立 以 后 , 随 着 用 户 的 不 断 增加 以 及 时 间 的 推移 ,用 户 查 询 需 求 更 多 ,数据 会 
迅速 增长 。 造 成 这 种 增长 的 原因 有 : 详细 数据 和 汇总 数据 的 增加 ,历史 数据 的 增加 ;满足 更 
多 用 户 决策 需求 ,数据 的 增加 等 。 数 据 仓库 在 使 用 后 不 断 增长 已 成 为 数据 仓库 的 特点 。 

在 数据 仓库 的 开发 过 程 中 需要 适应 数据 仓库 不 断 增 长 的 现实 。 


2. 数据 仓库 维护 


数据 仓库 维护 包括 适应 数据 仓库 增长 的 维护 和 正常 系统 维护 两 类 。 

适应 数据 仓库 增长 的 维护 包括 数据 增长 的 处 理 , 存 储 空间 的 处 理 .ETL 处 理 .数据 模型 
的 修订 、 增 强 决策 支持 的 处 理 等 。 其 中 ,数据 增长 的 处 理工 作 包 括 去 掉 没 有 用 的 历史 数据 ， 
以 及 根据 用 户 使 用 的 情况 取消 某 些 细节 数据 和 无 用 的 汇总 数据 ,或 增加 实用 的 汇总 数据 。 

存储 空间 的 处 理工 作 主要 是 对 增长 的 存储 设备 要 有 计划 。 存 储 成 本 是 软件 成 本 的 4 一 
5 倍 。 

正常 的 系统 维护 工作 包括 数据 仓库 的 备份 和 恢复 。 由 于 数据 仓库 的 数据 是 经 过 了 复杂 
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的 清洗 和 转换 过 程 而 得 到 的 ,因此 它 代 表 企业 的 丰富 历史 , 它 能 适应 用 户 信息 查询 和 决策 支 
持 。 备 份 数据 内 容 是 很 有 必要 的 。 备 份 数据 也 为 系统 恢复 提供 基础 ,一 旦 系统 出 现 灾难 , 利 
用 备份 数据 可 以 迅速 将 数据 仓库 恢复 到 正常 状态 。 


3. 数据 仓库 评估 


数据 仓库 评估 包括 三 个 方面 : 系统 性 能 评定 ;投资 回报 分 析 ; 数 据 质量 评估 。 
(1) 系统 性 能 评定 
它 包 括 : 
。 硬件 平台 是 否 能 够 支持 大 数据 量 的 工作 和 多 类 用 户 、 多 种 工具 的 大 量 需 求 ? 
。 软件 平台 是 否 是 用 一 个 高 效 的 且 优 化 的 方式 来 组 织 和 管理 数据 ? 
。 是 否 适应 系统 (数据 和 人 处理) 的 扩展 ? 
(2) 投资 回报 分 析 
投资 回报 分 析 包 括 定 量 分 析 和 定性 分 析 。 
。 定量 分 析 是 计算 投资 回报 率 (ROD , 即 收益 与 成 本 的 比率 。IDC 公司 提供 的 数据 表 
明 : 欧美 62 家 企业 建立 的 数据 仓库 三 年 投资 回报 率 平均 值 为 401% ,收回 投资 的 平 
均 时 间 为 2. 3 年 。 最 终 用 户 获得 的 效益 大 约 占 总 效益 的 50% ,信息 收集 人 员 和 维护 
人 员 获 得 的 效益 共 占 总 效益 的 50%。 
IDC 的 调查 结果 表明 ,对 于 环境 比较 复杂 的 企业 ,数据 仓库 是 一 种 有 价值 的 投资 。 
。 定性 分 析 是 分 析 如 下 几 个 方面 的 效果 : 企业 与 客户 之 间 关 系 状 态 ? 给 客户 获得 的 
好 处 ? 建立 企业 的 合作 关系 如 何 ?” 对 转瞬 即 逝 的 机 会 快速 反应 能 力 如 何 ?” 管理 宏 
观 和 微观 数据 的 能 力 如 何 ? 改善 管理 能 力 如 何 ? 
(3) 数据 质量 评估 
数据 质量 是 数据 仓库 成 功 的 关键 ,只 有 高 质量 的 数据 才能 为 决策 支持 提供 准确 的 依据 ， 
保证 决策 的 正确 性 。 
数据 质量 的 评估 标准 有 : 
@ 数据 是 准确 的 。 数 据 必须 保证 它 的 准确 性 ,例如 姓名 、 地 址 对 营销 部 门 必须 正确 。 
@ 数据 符合 它 的 类 型 要 求 和 取 值 要 求 。 定 义 了 数据 字段 类 型 (如 字符 型 .实数 型 等 ) 
后 ,对 该 字段 的 所 有 数据 必须 满足 类 型 要 求 , 其 取 值 必须 在 指定 的 范围 内 ,例如 * 性 别 ?字段 
是 “字符 型 ”, 其 取 值 只 有 “ 男 "或 “ 女 ”。 
@ 数据 具有 完整 性 和 一 致 性 。 数 据 的 完整 性 体现 在 对 不 同 的 需求 。 都 应 该 获得 所 需 
要 的 数值 ,不 应 该 有 缺失 值 。 数 据 的 一 致 性 体现 在 相同 记录 下 同一 字段 的 数据 在 多 个 不 同 
的 源 系统 中 有 相同 的 类 型 和 取 值 ,例如 产品 ABC 的 代码 是 1234 ,在 不 同 的 源 系 统 中 都 应 该 
是 一 致 的 。 
@ 数据 是 清晰 的 且 符 合 商 业 规则 。 数 据 正 确 的 命名 可 以 帮助 用 户 更 好 地 理解 数据 元 
素 , 如 果 用 户 不 了 解 它 的 含义 就 不 可 能 很 好 地 使 用 它 。 数 据 必须 符合 商业 规则 ,例如 销售 价 
格 不 能 低 于 底价 ,贷款 余额 不 能 是 负 值 。 
@ 数据 保持 时 效 性 并 不 能 出 现 异常 。 对 不 同时 间 要 求 的 数据 (如 按照 月 ) 能 按时 提供 ， 
保持 时 效 性 。 数 据 不 能 出 现 异 常 , 例 如 客户 的 通讯 地 址 不 能 是 传真 号 码 或 者 电话 号 码 。 
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4.2.2 数据 质量 与 数据 清 ; 


数据 质量 是 数据 仓库 的 成 功 关键 。 完 整 而 准确 的 数据 能 够 大 大 提高 客户 服务 的 质量 , 例 
如 ,为 产品 增加 交叉 销售 的 机 会 ( 即 购买 一 个 产品 时 ,可 能 购买 其 他 产品 ) 。 高 质量 的 数据 能 减 
少 成 本 和 降低 风险 ,提高 生产 率 ,完成 实时 的 信息 分 析 , 最 本 质 的 是 保证 战略 决策 的 制定 。 

在 数据 仓库 的 开发 中 ,数据 的 抽取 和 转换 过 程 中 会 发 现 数据 质量 问题 ,要 及 时 找 出 数据 
污染 的 原因 ,进行 有 效 的 数据 清洗 ,确保 数据 的 高 质量 。 


1. 数据 质量 问题 


数据 质量 问题 表现 为 : 

(1) 字段 中 的 虚假 值 。 在 输入 数据 时 ,有 时 会 将 字母 q.O 等 , 误 改 成 数字 “9” 和 “0”。 

(2) 数据 值 缺失 。 这 在 客户 数据 中 经 常 出 现 。 

(3) 不 一 致 的 值 。 不 同 的 源 系统 代码 表示 不 一 致 。 例 如 有 的 代码 表示 为 A(Auto)、 
H(Home) 、F(Flood); 有 的 表示 为 1.2、3; 有 的 表示 为 AU 、HO FL 等 。 

(4) 违反 常规 的 不 正确 值 。 例 如 一 年 工作 的 天 数 , 加 上 假日 .病假 天 数 超过 365 天 。 

(5) 一 个 字段 有 多 种 用 途 。 一 个 字段 同一 数据 在 不 同 部 门 可 能 有 不 同 的 含义 。 

(6) 标 码 不 唯一 。 例 如 销售 系统 与 库存 系统 的 产品 代码 不 一 致 。 


2. 数据 污染 产生 的 原因 


出 现 数据 被 污染 情况 的 原因 有 : 

(1) 系统 转换 。 由 于 系统 升级 而 发 生变 化 时 ,在 文件 转换 过 程 中 ,会 对 数据 产生 污染 。 
系统 转换 和 迁移 是 数据 污染 的 重要 原因 。 查 找 数据 污染 需要 了 解 每 一 次 源 系 统 所 经 过 的 转 
换 过 程 。 

(2) 数据 老化 。 在 源 系 统 中 有 很 多 旧 系 统 时 , 旧 的 值 随 着 时 间 的 变化 会 失去 它 的 含义 

(3) 复杂 的 系统 集成 。 数 据 不 一 致 会 产生 数据 污染 。 数 据 仓 库 的 源 系 统 种 类 越 多 ,出 
现 污染 数据 的 可 能 性 越 大 。 

(4) 数据 输入 的 不 完整 信息 。 在 初始 数据 输入 时 ,没有 完全 输入 所 有 的 字段 ,将 导致 数 
据 值 缺失 ;对 必须 输入 的 字段 ,随便 输入 一 些 通用 数据 ,也 将 产生 数据 污染 。 

(5) 输入 错误 。 错 误 的 数据 输入 也 是 数据 污染 的 一 个 主要 来 源 。 

(6) 欺诈 。 有 些 人 为 了 欺诈 ,千方百计 地 往 系 统 中 输入 错误 的 数据 ,特别 是 涉及 金额 或 
产品 数量 的 字段 。 

(7) 缺乏 相关 政策 。 如 果 公司 对 数据 质量 没有 明确 的 相关 政策 , 它 的 数据 质量 就 不 可 
能 得 到 保证 。 


3. 数据 清洗 


清洗 数据 仓库 中 所 有 数据 的 成 本 是 相当 高 的 。 在 现实 世界 中 ,绝对 的 高 质量 数据 是 不 
存在 的 ,不 能 期 望 100，% 的 数据 质量 。 清 洗 数 据 采 用 “面向 目标 ”的 原则 , 先 确 定 要 使 用 哪些 
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数据 ,然后 确定 目标 是 什么 。 清 洗 数据 要 明确 如 下 问题 : 

(1) 需要 清洗 哪些 数据 

清洗 哪些 数据 是 根据 数据 仓库 要 回答 用 户 的 问题 类 型 , 找 出 回答 问题 所 需要 的 数据 。 
权衡 每 部 分 数据 的 价值 ,并 估计 对 数据 清洗 、 对 用 户 分 析 会 造成 什么 影响 。 通 常 只 清洗 那些 
重要 的 数据 ,而 忽略 那些 不 重要 的 数据 。 

(2) 在 什么 地 方 清洗 

数据 的 错误 来 自 源 系 统 ,在 数据 进入 数据 仓库 之 后 再 进行 清洗 是 不 现实 的 ,这 样 会 破坏 
已 转移 和 装载 的 其 他 数据 。 通 常 ,数据 在 被 存储 进 数据 仓库 之 前 就 应 该 进行 清洗 。 数 据 抽 
取 过 程 中 被 抽取 的 数据 一 般 进 入 缓存 区 域 , 数 据 装载 过 程 从 缓存 区 域 进 入 数据 仓库 中 。 

在 缓存 区 域 中 清洗 数据 相对 容易 。 

(3) 怎么 清洗 

清洗 源 系统 中 的 数据 ,必须 找到 适合 源 系统 的 字段 和 格式 的 清洗 工具 。 现 在 已 有 很 多 
完成 各 种 数据 清洗 功能 的 工具 软件 可 以 采用 。 对 于 特殊 的 数据 污染 则 要 专门 编制 程序 来 完 
成 数据 清洗 。 

对 于 要 净化 的 数据 元 素 分 为 3 个 优先 级 类 型 : 高 优先 级 、 中 优先 级 和 低 优先 级 。 对 高 
优先 级 的 数据 要 达到 100% 的 数据 质量 等 级 。 中 优先 级 的 数据 越 准 确 越 好 ,对 这 类 数据 ,要 
在 数据 修正 的 成 本 和 坏 数 据 可 能 造成 的 影响 之 间 进 行 平衡 。 低 优先 级 的 数据 可 以 在 有 时 间 
和 有 需要 的 时 候 进行 清洗 。 

(4) 建立 一 个 数据 质量 框架 

数据 质量 框架 包括 : 建立 数据 质量 领导 小 组 ;建立 数据 质量 政策 和 标准 ;定义 质量 指标 
参数 和 基准 ;识别 受 坏 数据 影响 最 大 的 商业 功能 ;选择 那些 有 较 大 影响 力 的 数据 元 素 ,确定 
优先 级 ;对 有 较 大 影响 力 的 数据 元 素 定制 清洗 计划 ,并 执行 数据 清洗 ;再 为 较 小 影响 的 数据 
元 素 制定 清洗 计划 ,并 执行 数据 清洗 。 这 个 框架 是 确保 数据 质量 的 基础 。 


4.2.3 数据 粒度 与 维度 建 模 


数据 粒度 是 指数 据 仓库 的 数据 中 保存 数据 的 细 化 程度 或 综合 程度 的 级 别 。 细 化 程度 越 
高 ,粒度 级 别 就 越 小 ;相反 , 细 化 程度 越 低 ,粒度 级 别 就 越 高 。 

数据 粒度 深 深 影响 存放 在 数据 仓库 中 的 数据 量 的 大 小 ,同时 影响 数据 仓库 所 能 回答 的 
查询 类 型 。 

数据 仓库 的 设计 需要 在 数据 量 大 小 与 查询 的 详细 程度 之 间 做 出 权衡 。 

例如 ,在 数据 仓库 中 存储 一 个 顾客 ( 张 三 ) 一 个 月 里 每 个 电话 的 细节 ,能 够 查询 出 “ 张 三 
在 某 日 是 否 给 女友 打 过 电话 ”。 其 存储 量 是 每 个 月 200 个 记录 40 000 个 字 节 。 若 存储 一 个 
顾客 一 个 月 的 电话 综合 ,能 够 查询 “ 张 三 这 个 月 打 了 多 少 个 长 途 电话 ”, 其 存储 量 是 每 个 月 一 
个 记录 200 个 字 节 。 


el 


1. 大 维度 与 雪花 模型 


大 维度 表现 在 两 方面 : 大 维度 表 的 记录 数 很 大 ; 四 大 维度 表 的 属性 很 多 。 在 数据 仓 
库 中 ,客户 维度 和 产品 维度 是 典型 的 大 维度 。 一 个 全 国 连锁 店 的 客户 维度 可 能 包括 上 亿 条 
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记录 之 多 。 大 型 零售 店 的 产品 维度 也 相当 巨大 。 

一 般 大 型 客户 维度 有 2000 万 条 记录 ,150 个 维度 属性 ,可 能 有 多 种 层次 结构 。 

一 般 大 型 产品 维度 有 100 000 种 产品 ,100 多 个 属性 ,也 有 多 种 层次 结构 。 

大 维度 数据 仓库 运行 时 会 很 慢 ,效率 很 低 。 

大 维度 表 采 用 雪花 模型 的 数据 组 织 ,是 一 种 有 效 的 方法 。 

对 产品 维度 ,产品 分 属于 产品 品牌 ,品牌 又 分 属于 产品 分 类 ;对 客户 维度 ,客户 分 属于 地 
区 ,地 区 分 属于 国家 。 以 上 结构 采用 雪花 模型 的 数据 组 织 , 将 减少 各 维 表 的 记录 数 ,使 查询 
过 程 中 搜索 记录 数目 减少 。 

对 于 销售 的 雪花 模型 如 图 4. 11 所 示 。 


品牌 产品 销售 事实 
品牌 键 产品 键 产品 键 
品牌 名 电机 时 间 键 客户 地 区 家 
i 第 全 要 | | 客户 键 | /地 区 键 | 人 国家 刍 
销售 总 价 客户 名 地 区 名 国家 名 
利润 地 区 键 国家 键 
分 类 包装 
人 实名 包装 键 
时 间 
装 类 别 
包装 类 别 时 间 刍 
日 期 
月 
季 
年 
图 4.11 销售 事实 的 雪花 模型 
2. 综合 事实 表 


在 基础 事实 表 中 ,各 条 记录 反映 维度 多 层 结构 中 最 低层 次 的 数据 。 例 如 ,销售 事实 是 某 
日 、 某 个 商店 和 某 个 产品 相关 的 销售 数量 和 销售 总 价 。 

在 现实 中 ,大 多 数 查询 不 是 基于 基础 事实 表 来 操作 的 ,而 是 基于 综合 数据 的 查询 。 这 样 
建立 综合 事实 表 是 提高 综合 数据 查询 非常 有 效 的 方法 ,而 且 大 大 提高 了 数据 仓库 的 性 能 。 

在 多 维 表 中 ,很 多 维 都 具有 层次 结构 ,对 不 同 维 的 层次 的 提升 ,将 可 建立 多 种 综合 事实 
表 。 综 合 事实 表 是 由 基础 事实 表 衍 生出 来 的 。 同 时 维度 也 将 衍生 出 高 层次 的 维 表 , 它 与 综 
合 事实 表 连 接 起 来 一 起 使 用 。 

例如 ,对 产品 维 从 每 一 个 具体 的 产品 上 升 为 分 类 产品 ,需要 建立 产品 分 类 维 表 ( 衍 生 维 
表 )。 按 照 产品 分 类 键 来 综合 基础 销售 事实 表 的 事实 ,形成 综合 销售 事实 表 , 如 图 4. 12 所 示 。 

从 图 4. 12 中 可 见 , 对 基础 事实 表 查 询 利用 产品 维 表 , 对 综合 事实 表 查 询 利 用 产品 分 类 
维 表 。 

以 上 是 对 一 个 维度 进行 提升 产生 的 综合 事实 表 和 衍生 维 表 。 若 对 两 个 或 三 个 维度 同时 
进行 提升 ,所 产生 的 综合 事实 表 也 需要 衍生 出 相应 二 个 或 三 个 高 层次 的 维 表 。 综 合 事实 表 
将 大 大 提高 综合 数据 的 查询 效果 。 
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产品 键 六 |] 产品 商店 键 

产品 时 间 键 商店 名 

分 商店 键 

部 门 销售 量 地 区 
销售 总 价 

时 间 综合 事实 表 产品 分 类 

时 间 键 分 类 键 分 类 键 
时 间 键 分 类 名 
商店 键 部 门 

季 销售 量 

年 销售 总 价 


图 4. 12 综合 事实 表 和 衍生 维度 (产品 分 类 ) 表 


4.3 数据 仓库 技术 与 开发 的 困难 


4.3.1 数据 仓库 技术 


数据 仓库 环境 中 的 数据 处 理 可 以 概括 为 装 入 与 访问 两 个 过 程 。 数 据 从 大 量 数据 库 中 的 
集成 ,转换 和 装载 到 数据 仓库 中 去 。 数 据 一 旦 被 装 入 ,通常 是 不 更 新 的 。 数 据 到 数据 仓库 后 
将 被 访问 和 分 析 。 


1. 管理 大 量 数据 


对 于 数据 仓库 最 重要 的 技术 就 是 能 够 管理 大 量 的 数据 。 

传统 数据 库 环境 和 数据 仓库 环境 一 个 重要 的 区 别 在 于 ,数据 仓库 中 有 更 多 的 数据 量 , 比 
一 般 的 数据 库 环境 中 要 多 得 多 。 数 据 仓 库 中 的 数据 量 是 10GB 或 100GB 级 的 ,而 一 个 通用 
的 DBMS 通常 管理 的 数据 是 MB 级 的 。 数 据 仓库 要 管理 大 量 的 数据 ,是 因为 它们 : 

(1) 包括 细节 数据 ; 

(2) 包括 历史 数据 ; 

(3) 包括 汇总 数据 

(4) 包括 元 数据 。 

有 很 多 种 管理 大 量 数据 的 方法 一 一 通过 寻 址 ,通过 索引 ,通过 数据 的 外 延 ,通过 有 效 的 
溢出 管理 等 等 。 管 理 大 量 的 数据 有 两 方面 : 能 够 管理 大 量 数 据 的 能 力 和 能 够 高 效 管理 数据 
的 能 力 。 任 何 声称 支持 数据 仓库 的 技术 一 定 都 要 满足 能 力 与 效率 的 要 求 。 数 据 仓库 开发 者 
建造 数据 仓库 时 ,需要 能 够 满足 处 理 大 量 数 据 的 需求 。 


2. 数据 的 高 效 装 入 和 数据 压缩 


(1) 装 入 数据 
数据 仓库 的 一 个 重要 技术 就 是 能 够 高 效 地 装 人 数据。 
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有 很 多 种 装 入 数据 的 方法 : 通过 一 个 语言 接口 一 次 一 条 记录 或 者 一 起 使 用 一 个 程序 一 
次 全 都 装 入 。 另 外 ,在 装 和 人 数据 的 同时 ,索引 也 要 高 效 地 装 人 。 在 有 些 时 候 , 为 了 平衡 工作 
负载 ,数据 索引 的 装 入 可 以 推迟 。 

如 果 数 据 仓库 中 数据 的 装 入 有 不 可 克服 的 困难 ,那么 这 个 数据 仓库 就 没有 用 处 了 。 

(2) 数据 压缩 

数据 仓库 的 成 功 之 处 就 在 于 能 够 管理 大 量 的 数据 。 达 到 这 一 目的 的 中 心 是 数据 的 压 
缩 。 当 数据 能 够 被 压缩 时 , 它 便 能 存储 在 很 小 的 空间 中 。 这 与 数据 仓库 的 环境 有 关 , 因 为 数 
据 在 插入 到 数据 仓库 中 后 ,是 很 少 被 更 新 的 。 数 据 仓库 中 数据 的 稳定 性 减少 了 空间 管理 问 
题 ,这 些 问 题 是 在 更 新 紧密 压缩 的 数据 时 发 生 的 。 

压缩 的 另 一 个 好 处 是 程序 员 可 以 完全 脱离 给 定 的 输入 /输出 操作 。 当 然 , 对 数据 的 访问 
就 会 有 相应 的 解压 缩 的 问题 。 虽 然 解压 缩 需要 一 定 的 开销 ,但 这 个 开销 不 是 W/O 资源 的 开 
销 ,而 是 CPU 的 开销 。 通 常 ,在 数据 仓库 环境 中 1/O 资源 比 CPU 资源 少 得 多 ,因此 数据 的 
解压 缩 并 不 是 一 个 主要 的 问题 。 


3. 存储 介质 的 管理 


在 处 理 大 量 数据 时 ,为 了 满足 高 效率 和 合理 的 费用 ,应 用 在 数据 仓库 中 的 基本 技术 应 该 
能 够 解决 多 种 存储 介质 的 问题 。 仅 仅 在 直接 存 取 存储 设备 (如 磁盘 ) 上 管理 一 个 成 熟 的 数据 
仓库 是 不 够 的 。 考 虑 到 访问 速度 和 存储 费用 ,对 数据 的 存储 要 分 层次 ,层次 的 区 分 如 下 : 


存储 介质 访问 速度 存储 费用 
主 存 非常 快 非常 贵 
扩展 内 存 非常 快 贵 
高 速 缓存 非常 快 贵 
磁盘 快 适中 
光盘 不 慢 不 贵 
微缩 胶片 慢 便宜 


由 于 数据 仓库 中 的 大 量 数量 和 被 访问 到 的 可 能 性 这 两 方面 的 因素 存在 ,因此 一 个 满载 
的 数据 仓库 应 该 放 在 多 种 存储 层次 上 。 处 理 数据 仓库 技术 应 该 能 管理 多 种 存储 介质 上 的 
数据 。 


4. 元 数据 管理 


数据 仓库 中 的 元 数据 比 在 传统 的 数据 库 中 更 重要 。 为 了 更 加 有 效 ,数据 仓库 的 用 户 应 
该 能 够 对 准确 和 实时 的 元 数据 进行 访问 。 如 果 没 有 一 个 好 的 元 数据 来 源 进行 运作 的 话 , 决 
策 支 持 系统 分 析 员 的 工作 就 非常 困难 。 


5. 数据 仓库 语言 


数据 仓库 需要 有 非常 丰富 的 数据 仓库 语言 。 这 种 语言 的 作用 是 有 效 管理 数据 仓库 中 的 
es 


数据 和 快速 .高效 地 访问 数据 仓库 中 的 数据 。3. 4. 5 节 介 绍 的 MDX 语言 就 是 一 个 有 效 的 
访问 数据 仓库 语言 。 


6. 高 效 索 引 


数据 仓库 的 灵魂 就 在 于 灵活 性 和 对 数据 的 不 可 预测 的 访问 。 这 一 点 也 就 是 要 求 能 够 对 
数据 进行 快速 和 方便 的 访问 。 数 据 仓库 中 的 数据 如 果 不 能 方便 和 有 效 地 检索 ,那么 建立 数 
据 仓 库 这 项 工作 就 不 是 成 功 的 。 当 然 , 设 计 者 可 以 利用 许多 方法 来 使 数据 尽 可 能 的 灵活 , 例 
如 利用 双重 粒度 级 和 数据 分 割 。 但 这 些 技 术 一 定 要 支持 方便 地 索引 ,建立 和 应 用 索引 的 费 
用 不 能 太 高 。 


7. 多 维 DBMS 和 数据 仓库 


在 数据 仓库 中 经 常 讨 论 的 技术 是 多 维 数据 库 管 理 系统 (多 维 DBMS) 。 多 维 数据 库 管 理 
系统 提供 了 一 种 信息 系统 结构 ,使 得 对 数据 的 访问 非常 灵活 ,可 以 用 多 种 方法 对 数据 进行 切 
片 分 割 ,动态 地 考察 汇总 数据 和 细节 数据 的 关系 。 多 维 DBMS 不 仅 提供 了 灵活 性 ,还 可 以 
对 终端 用 户 进行 管理 ,这 些 非 常 适合 决策 支持 系统 (DSS) 环 境 。 为 此 ,数据 要 定期 从 数据 仓 
库 中 导入 到 多 维 DBMS 中 去 。 

数据 仓库 和 多 维 DBMS 的 区 别 : 

(1) 数据 仓库 有 大 量 的 数据 ;多 维 DBMS 中 的 数据 至 少 要 少 一 个 数量 级 。 

(2) 数据 仓库 只 适合 于 少量 的 灵活 访问 ;而 多 维 DBMS 适合 大 量 的 非 预 知 的 数据 的 访 
问 和 分 析 。 

(3) 数据 仓库 内 存储 了 很 长 时 间 范 围 内 的 数据 一 一 从 5 年 到 10 年 ;多 维 DBMS 中 存储 
着 比较 短 时 间 范 围 内 的 数据 。 

(4) 数据 仓库 允许 分 析 人 员 以 受 限 的 形式 访问 数据 ,而 多 维 DBMS 允许 自由 的 访问 。 

多 维 DBMS 和 数据 仓库 有 着 互补 的 关系 。 数 据 仓 库 为 非常 细节 的 数据 提供 了 基础 ,而 
这 在 多 维 DBMS 中 通常 是 不 能 看 到 的 。 数 据 仓库 能 容纳 非常 详细 的 数据 ,这 些 数据 在 导入 
到 多 维 DBMS 时 被 轻 度 综合 了 ,导入 多 维 DBMS 后 .数据 还 会 被 进一步 地 汇总 。 在 这 种 模 
式 下 ,多 维 DBMS 可 以 包含 除了 非常 细节 以 外 的 所 有 数据 。 使 用 多 维 DBMS 的 分 析 者 可 以 
用 一 种 灵活 和 高 效 的 方式 来 对 多 维 DBMS 中 所 有 不 同 层次 的 数据 进行 钼 取 。 如 果 需 要 的 
话 ,分析 者 还 可 以 向 下 钻 取 到 数据 仓库 。 通 过 这 种 方式 将 数据 仓库 和 多 维 DBMS 结合 。 
DSS 分 析 者 可 以 得 到 这 两 者 的 好 处 。DSS 分 析 者 大 部 分 时 间 里 可 以 在 多 维 DBMS 中 享受 
其 操作 高 效 的 优点 ,同时 如 果 需 要 的 话 , 还 可 以 向 下 钻 取 最 低层 次 的 细节 数据 。 

一 些 多 维 DBMS 建立 在 关系 模型 上 ,而 一 些 多 维 DBMS 建立 在 能 优化 “切片 和 切 块 数 
据 的 基础 上 ,在 这 里 数据 可 以 被 认为 存储 在 多 维 立 方 体内 ,后 者 的 技术 基础 为 “数据 立方 
体 ”。 

两 种 技术 基础 都 支持 多 维 DBMS 数据 集 市 ,但 这 两 种 技术 基础 之 间 存 在 着 一 些 差异 。 

多 维 DBMS(OLAP) 是 一 种 技术 ,而 数据 仓库 是 一 种 体系 结构 的 基础 。 这 两 者 之 间 存 
在 着 互补 的 和 共生 的 关系 。 最 一 般 的 情况 下 ,数据 仓库 作为 多 维 DBMS 的 基础 一 一 从 中 选 
出 细节 数据 的 一 个 子 集 传 到 多 维 DBMS 中 ,在 那里 ,数据 要 么 被 汇总 ,要 么 被 聚集 。 

。 92 。 


4.3.2 数据 仓库 开发 的 困难 


数据 仓库 由 于 数据 量 大 (具有 GB 级 到 TB 级 的 数据 ) ,数据 包括 近期 、 综 合 、. 历 史 等 多 
个 层次 ,还 包括 元 数据 ,致使 数据 的 存储 和 管理 复杂 。 数 据 仓库 的 应 用 包括 快速 查询 、 多 维 
分 析 及 数据 挖掘 等 多 种 类 型 。 这 样 , 数 据 仓 库 需 要 一 个 具有 海量 存储 的 硬件 平台 和 一 个 能 
进行 并 行 处 理 的 大 型 数据 库 系统 。 大 型 数据 库 厂商 NCR 公司 提供 的 数据 仓库 硬件 平台 是 
具有 海量 并 行 处 理 的 WordMark 系列 服务 器 ,数据 仓库 软件 是 Teradata 数据 库 系统 ,能 处 
理 GB 级 到 TB 级 的 数据 ,具有 很 强 的 并 行 处 理 能 力 和 扩展 能 力 。ORACLE、IBM.、SAS、 
Microsoft 等 公司 也 都 推出 了 各 自 的 数据 仓库 商品 ,它们 为 开发 数据 仓库 提供 了 强 有 力 的 工 
具 。 这 些 工具 极 大 地 推动 了 数据 仓库 的 发 展 。 但 是 ,在 国外 仍 存 在 开发 数据 仓库 失败 的 案 
例 。 这 些 失败 的 案例 主要 反映 在 错误 的 认识 观念 上 ,它们 构成 了 开发 数据 仓库 的 障碍 。 

国外 总 结 开发 数据 仓库 的 典型 错误 归纳 如 下 。 


1. 没有 理解 数据 的 价值 


没有 认识 到 数据 的 价值 ,就 不 会 有 效 地 访问 数据 和 挖掘 数据 中 的 信息 和 知识 。 数 据 必 
须 共享 ,才能 充分 发 挥 它 的 价值 ,那些 垄断 数据 的 做 法 只 可 能 埋没 数据 的 作用 ,直接 影响 数 
据 仓库 的 开发 。 数 据 的 一 致 性 是 数据 共享 的 基础 。 数 据 对 于 不 同 的 人 ,由 于 定义 的 不 一 至 
和 时 间 的 不 一 致 ,就 会 造成 数据 的 不 一 致 ,这 会 造成 对 数据 理解 的 不 一 致 和 报表 的 不 一 致 ， 
从 而 丧失 人 们 对 数据 的 信任 ,更 谈 不 上 辅助 决策 了 。 


2. 未 能 理解 数据 仓库 概念 


不 了 解数 据 仓库 的 含义 , 即 它 所 能 解决 的 业务 问题 和 它 的 用 途 , 必 然 导 致 数据 仓库 开发 
的 失败 。 数 据 仓 库 数据 不 是 将 大 量 现行 系统 中 的 数据 堆积 而 成 的 。 数 据 仓库 是 将 现行 管理 
系统 中 大 量 数据 按 决 策 主题 重新 组 织 ,通过 集成 而 形成 的 。 数 据 仓库 包含 大 量 随时 间 变 化 
的 数据 ,而 不 进行 实时 更 新 。 不 像 现 行 管理 系统 中 数据 进行 实时 更 新 ,只 保留 当前 准确 的 数 
据 。 在 数据 仓库 中 元 数据 很 重要 。 元 数据 能 够 让 用 户 了 解数 据 仓库 中 有 什么 数据 ,它们 是 
如 何 组 织 的 ,对 这 些 数据 如 何 使 用 。 只 有 充分 理解 数据 仓库 的 概念 ,才能 充分 发 挥 数 据 仓库 
作用 。 


3. 尚未 清楚 了 解 用 户 将 如 何 使 用 数据 仓库 之 前 , 便 贸然 开发 数据 仓库 


一 个 典型 的 错误 观点 是 :“ 只 要 你 建 好 (数据 仓库 ) 了 ,他 们 就 会 用 ”。 这 种 盲目 自信 
地 建造 数据 仓库 的 做 法 ,由 于 用 户 未 参加 界定 对 数据 仓库 的 需求 ,必然 导致 数据 仓库 的 
失败 。 

数据 仓库 的 建造 必须 要 有 用 户 代 表 参 加 。 用 户 代表 懂得 数据 仓库 中 需要 有 哪些 数据 ， 
以 及 如 何 使 用 数据 仓库 来 改善 他 们 的 决策 过 程 。 


4. 对 数据 仓库 规模 的 估计 模糊 


数据 仓库 规模 包括 数据 量 的 多 少 、 用 户 数量 ,常规 查询 所 耗费 的 资源 、 并 发 查询 数目 、 对 
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CPU 的 要 求 等 。 

数据 仓库 中 的 数据 量 多 少 依赖 于 数据 的 主题 (如 顾客 .产品 .风险 管理 . 收 支 等 ) 的 划分 ， 
以 及 用 户 人 数 。 数 据 太 多 时 ,将 会 使 数据 存储 和 加 载 过 程 耗资 巨大 ,还 会 造成 数据 得 不 到 充 
分 利用 或 根本 无 人 使 用 它们 的 情况 。 


5. 忽视 了 数据 仓库 体系 结构 和 数据 仓库 开发 方法 


数据 仓库 体系 结构 具有 三 个 层次 : 数据 获取 、 数 据 存储 和 分 析 工 具 。 这 个 体系 结构 是 
建造 数据 仓库 的 图 纸 。 

数据 仓库 的 生命 周期 (DWLC) 不 同 于 系统 生命 周期 (SDLC)。DWLC 包括 系统 分 析 与 
设计 数据 获取 、 决 策 支 持 、 维 护 与 评估 4 个 阶段 12 个 步骤 。 

数据 仓库 的 设计 应 该 采用 数据 驱动 方法 , 即 以 数据 为 基础 ( 尽 可 能 地 利用 已 有 的 数据 、 
代码 等 ,而 不 是 从 无 到 有 ) ,进行 从 面向 应 用 到 面向 分 析 需 求 的 转变 , 按 决 策 主 题 存 取 数 据 和 
分 析 数 据 ,并 逐步 提高 决策 效果 的 方法 。 

数据 仓库 中 数据 必须 保证 它 的 质量 ,错误 的 数据 会 引起 错误 的 决策 。 数 据 的 粒度 水 平 
如 何 , 即 数据 应 该 以 细节 形式 存储 ,还 是 以 概括 形式 存储 ,还 是 两 种 形式 兼 有 ,这 应 该 根据 用 
户 需求 来 确定 。 

开发 时 只 有 克服 了 以 上 的 错误 观念 ,数据 仓库 才能 真正 发 挥 它 的 作用 。 


习 题 4 


. 数据 仓库 的 需求 分 析 的 任务 是 什么 ? 

. 数据 仓库 系统 需要 确定 的 问题 有 哪些 ? 

. 实现 决策 支持 所 需要 的 数据 包括 哪些 内 容 ? 

. 什么 是 概念 模型 ? 它 的 特点 是 什么 ? 

. E-R 图 如 何 描述 概念 模型 ? 

. 比较 数据 库 的 概念 模型 设计 与 数据 仓库 的 概念 模型 设计 。 

. 解释 图 4. 1 所 示 的 概念 模型 。 

. 什么 是 多 辑 模型 ? 数据 仓库 的 逻辑 模型 是 什么 ? 

. 数据 仓库 的 逻辑 模型 与 数据 库 的 逻辑 模型 有 什么 不 同 ? 

.举例 说 明 从 数据 仓库 的 概念 模型 到 人 逻辑 模型 的 转换 。 

. 在 数据 仓库 中 为 什么 要 考虑 数据 的 粒度 层次 划分 ? 

. 数据 仓库 的 记录 系统 包含 什么 内 容 ? 举例 说 明 。 

. 什么 是 物理 模型 ? 数据 仓库 的 物理 模型 设计 包括 哪些 工作 ? 

14. 为 什么 数据 仓库 物理 模型 设计 中 要 建立 汇总 计划 和 确定 数据 分 区 方案 ? 
15. 说 明 图 4. 8 中 届 辑 模型 与 物理 模型 的 区 别 。 

16. 概括 说 明 “ 概 念 模型 .逻辑 模型 物理 模型 ”分别 是 什么 样 的 数据 模型 ? 
17. 数据 仓库 索引 技术 包括 哪些 内 容 ? 

18. 为 什么 B-Tree 索引 不 适合 数据 仓库 ? 


= 
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19. 数据 仓库 中 采用 标识 技术 有 什么 好 处 ? 

20. 数据 仓库 的 广义 索引 是 什么 时 候 建立 的 (是 在 建立 数据 仓库 之 后 ,还 是 在 建立 数据 
仓库 同时 )? 简单 说 明 原 因 。 

21. 说 明 数 据 仓库 开发 的 4 个 阶段 和 12 个 步 又 。 

22. 简要 说 明 数 据 仓 库 开发 的 分 析 与 设计 阶段 的 内 容 。 

23. 简要 说 明 数 据 仓 库 开发 的 数据 获取 阶段 的 内 容 。 

24. 简要 说 明 数 据 仓 库 开发 的 决策 支持 阶段 的 内 容 。 

25. 简要 说 明 数 据 仓库 开发 的 维护 与 评估 阶段 的 内 容 。 

26. 数据 质量 问题 表现 在 哪些 方面 ? 

27. 数据 污染 产生 的 原因 有 哪些 ? 

28. 为 什么 大 维度 表 采 用 雪花 模型 ? 

29. 数据 仓库 技术 包括 哪些 内 容 ? 

30. 国外 开发 数据 仓库 的 错误 有 哪些 ? 
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第 3 章 涩 所 仓库 的 决 绩 支持 
5.1 数据 仓库 的 用 户 


数据 仓库 的 用 户 有 两 类 : 信息 使 用 者 和 探索 者 。 

信息 使 用 者 是 使 用 数据 仓库 的 大 量 用 户 。 信 息 使 用 者 以 一 种 可 预测 的 ,重复 性 的 方式 
使 用 数据 仓库 平台 。 他 们 通常 查看 概括 数据 或 聚集 数据 ,查看 相同 的 商业 维度 (如 产品 、 客 
户 、 时 间 ) 和 指标 (如 收入 和 成 本 ) 随 时 间 的 发 展 趋势 。 他 们 天 天 重复 同样 的 活动 ,很 少 使 用 
元 数据 。 他 们 的 工作 相对 来 说 属于 战术 性 的 。 

探索 者 完全 不 同 于 信息 使 用 者 ,他 们 有 一 个 完全 不 可 预测 的 、 非 重复 性 的 数据 使 用 模 
式 。 探 索 者 查看 海量 的 详细 数据 ,而 概括 数据 则 会 妨碍 探索 者 的 数据 分 析 。 他 们 经 常 查看 
历史 数据 ,而 且 查 看 历史 数据 的 时 间 要 比 信息 使 用 者 长 得 多 。 探 索 者 的 任务 是 寻找 公司 数 
据 内 隐 含 的 价值 并 且 根 据 过 去 的 事件 努力 预测 未 来 决策 的 结果 。 探 索 者 是 典型 的 数据 挖 
掘 者 。 


5.1.1 数据 仓库 的 信息 使 用 者 


信息 使 用 者 所 提交 的 查询 操作 是 均匀 的 且 有 相当 少量 的 数据 ,他 需要 享有 好 的 查询 响 
应 时 间 。 数 据 仓 库 管理 员 采 取 如 下 方法 来 支持 信息 使 用 者 的 性 能 需求 。 


1. 非 规格 化 


数据 建 模 和 规范 化 的 作用 是 产生 一 种 完全 没有 数据 元 余 的 设计 方法 。 但 是 ,有 时 在 数 
据 仓 库 设计 中 引入 一 些 有 限 的 数据 元 余 来 提高 数据 访问 效果 。 例 如 ,在 一 些 数 据 表 中 加 入 
相同 的 量 , 这 是 用 增加 数据 存储 来 换取 数据 访问 的 优化 (减少 查询 时 间 )。 


2. 创建 数据 阵列 


数据 仓库 管理 员 发 现 用 户 经 常 同时 使 用 相关 类 型 的 数据 时 ,应 创建 数据 阵列 ,将 这 些 数 
据 单元 存储 在 一 起 ,提高 访问 效果 。 

例如 ,对 于 每 年 所 有 月 份 的 数据 ,被 分 别 放置 在 不 同 的 物理 位 置 上 ,而 用 户 经 常 要 同时 
查看 1 月 ,2 月、3 月 等 月 份 中 的 数据 ,这 样 会 花费 很 多 搜索 时 间 到 不 同 的 物理 位 置 去 获取 数 
据 。 一 个 好 的 方法 是 创建 数据 阵列 ,将 相关 联 的 数据 放 在 同一 物理 位 置 ,这 样 可 以 提高 查询 


3. 预 连接 表格 


节省 机 器 资源 最 有 效 的 技巧 之 一 ,就 是 基于 一 个 公用 键 和 共同 使 用 的 数据 将 表格 合并 
在 一 起 。 
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例如 ,如 果 有 两 个 或 者 更 多 的 表格 共享 一 个 公用 键 ,或 者 有 相同 的 表格 使 用 ,那么 可 以 
将 多 个 表格 合并 到 一 个 物理 表格 中 。 这 样 做 可 以 很 大 程度 地 提高 数据 访问 效率 。 


4. 预 聚 集 数 据 


一 种 非常 有 用 的 方法 是 根据 “滚动 概括 ”结构 来 组 织 数据 。 

当 数据 被 输入 到 数据 仓库 中 时 ,以 每 小 时 为 基础 存储 数据 。 在 这 一 天 结束 时 ,以 每 天 为 
基础 存储 累加 每 小 时 的 数据 。 在 一 周 结束 时 ,以 每 周 为 基础 存储 累加 每 天 的 数据 。 月 末 时 ， 
则 以 每 月 为 基础 存储 累加 每 周 的 数据 。 这 样 ,在 累加 数据 后 ,就 删除 被 累加 的 细节 数据 , 通 
过 这 种 方式 来 组 织 数据 ,数据 仓库 管理 者 将 极 大 地 减少 存储 数据 所 需要 的 空间 并 潜在 地 提 
高 性 能 。 

当然 ,管理 员 也 会 丧失 查看 已 过 时 的 详细 数据 的 能 力 , 越 早 获取 的 数据 ,保留 的 详细 数 
据 越 少 。 但 是 ,许多 种 类 型 的 数据 可 接收 这 种 处 理 。 例 如 ,可 以 非常 有 效 地 积累 销售 .产品 、 
市 场 数据 。 


5. 聚 类 数据 


在 预测 了 用 户 使 用 需求 以 及 使 用 规则 后 ,将 不 同类 型 的 数据 并 置 在 一 起 , 即 基于 产生 共 
同 信 息 , 将 不 同类 型 的 数据 记录 放置 在 相同 的 物理 位 置 。 这 使 用 户 查 看 这 些 记录 时 可 以 在 
同一 地 点 找到 它们 ,提高 了 查询 效率 。 

如 果 使 用 是 不 可 预测 和 不 规则 的 ,那么 数据 聚 类 毫 无 意义 。 


6. 压缩 数据 


压缩 将 节省 资源 ,因为 当 系统 访问 一 个 物理 数据 块 时 ,压缩 将 优化 所 检索 的 数据 量 。 利 
用 这 种 方式 ,压缩 可 以 使 可 读 取 的 数据 量 极 大 。 但 同时 也 需要 用 户 有 一 定 的 经 验 。 

要 注意 的 是 ,在 不 需要 数据 更 新 时 才 可 以 使 用 数据 压缩 , 即 压缩 需要 不 改变 任何 数据 
〈 即 一 旦 写 人 ,不 允许 重 写 或 者 更 新 ) 。 


7. 定期 净化 数据 


数据 仓库 管理 员 通 过 定期 删除 数据 仓库 中 不 需要 的 数据 ,可 以 为 每 个 用 户 提高 性 能 。 
没有 其 他 任何 一 种 方法 比 删除 不 需要 的 数据 对 数据 仓库 更 有 利 。 


8. 合并 查询 


如 果 查 询 定期 发 生 , 那 么 可 以 通过 把 这 些 查询 合并 到 同一 个 表格 中 ,来 节省 大 量 资源 。 
查询 合并 的 作用 就 是 把 扫描 数据 仓库 表格 的 次 数 最 小 化 。 

合并 查询 功能 的 条 件 有 : 

。 当 有 多 个 查询 询问 相同 的 表格 时 ; 

。 所 访问 的 表格 是 一 个 大 表格 ; 

。 用 可 预测 的 有 规律 的 方式 来 执行 查询 ; 

。， 这 些 查 询 所 执行 的 连接 是 一 行 接 一 行 的 方式 ; 
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。 这 种 查询 对 执行 时 间 不 太 敏 感 。 

如 果 查 询 不 能 够 符合 这 些 条 件 ,合并 查询 功能 就 没有 任何 优势 。 

应 该 如 何 处 理 合并 查询 功能 ?数据 仓库 管理 员 收 集 所 有 查询 需求 并 合并 到 一 个 大 型 池 
中 。 这 些 查 询 的 焦点 是 某 一 个 表格 一 一 主 表格 。 只 要 与 二 级 表格 的 连接 经 过 某 一 行 的 连接 
点 ,这 些 查 询 就 可 以 查看 其 他 表格 并 作为 查询 处 理 的 一 部 分 。 

从 主 表格 开始 ,访问 每 一 行 。 如 果 某 一 行 符 合 任意 一 个 查询 的 任何 选择 标准 , 则 保留 此 
行 以 被 分 析 。 否 则 继续 执行 下 一 行 。 一 旦 某 行 被 证 明令 人 感 兴趣 , 则 将 所 需要 的 数据 写 入 
到 一 个 工作 文件 中 。 如 果 有 多 个 查询 都 需要 相同 的 数据 (通过 连接 点 ) ,那么 这 个 结果 集 将 
被 多 个 查询 所 标记 。 


5.1.2 数据 仓库 的 探索 者 


探索 者 是 那些 寻找 不 平常 的 且 有 用 的 商业 运作 模型 的 用 户 群 。 探 索 者 的 运作 方式 是 反 
复 无 常 的 ,不 可 预测 的 及 随机 的 。 大 部 分 时 间 ,探索 者 努力 搜索 但 一 无 所 获 ;偶尔 探索 者 也 
会 发 现 意外 的 、 无 价 的 信息 “ 金 块 ”。 

探索 者 查看 详细 资料 和 历史 记录 。 在 多 数 情况 下 ,探索 者 考虑 数据 的 不 同类 型 和 数据 
具体 值 之 间 的 关系 。 探 索 者 要 做 的 工作 有 概括 分 析 、 抽 取 、 建 模 和 分 类 。 


1. 概括 分 析 


概括 分 析 是 探索 者 分 析 过 程 的 第 一 步 。 探 索 者 开始 以 分 析 数 据 仓 库 中 数据 的 外 部 特 
征 , 即 分 析 数 据 的 完整 性 和 准确 性 (数据 质量 )。 在 概括 分 析 活 动 中 ,要 询问 的 典型 问题 
包括 : 

。 家 庭 收入 如 何 分 配 ? 

。 有 多 少 账户 每 月 消费 超过 200 元 ? 有 多 少 账户 每 月 消费 小 于 或 等 于 200 元 ? 

。 有 和 多少 客户 有 两 个 以 上 的 小 孩 并 居住 在 市 区 ? 


2. 抽取 


通过 概括 分 析 , 所 选 数 据 的 轮廓 已 经 基本 显示 出 来 了 。 数 据 抽取 的 任务 就 是 从 数据 仓 
库 中 抽取 指定 的 数据 并 组 织 起 来 , 送 入 支持 探索 者 分 析 的 探索 仓库 中 。 这 样 ,不 会 影响 数据 
仓库 的 正常 工作 。 


3. 建 模 


探索 者 通过 概括 分 析 来 理解 数据 ,通过 抽取 来 准备 数据 ,通过 建 模 来 分 析 数 据 。 

建 模 是 开发 一 种 用 来 描述 实体 (如 客户 、 商 品 、 渠 道 等 ) 的 关系 模型 的 过 程 。 探 索 者 使 用 
的 模型 有 : 

。 客户 分 段 ; 

。 后 续 产 品 ; 

。 欺诈 检测 ; 

。 渠道 响应 (例如 电话 销售 和 直接 邮寄 ); 
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。 信用 风险 ; 

。 客户 生存 期 价值 ; 

。 推销 响应 。 

例如 ,利用 建 模 来 确认 有 可 能 拖延 支付 电话 账单 的 客户 : 首先 ,建立 一 个 模型 (利用 统 
计 学 和 行为 科学 ) 来 确认 经 常 拖延 支付 电话 账单 的 客户 特征 。 然 后 ,根据 客户 与 模型 的 密切 
程度 ,对 所 有 的 客户 进行 分 类 。 这 样 , 可 以 提供 谁 将 不 支付 电话 账单 的 某 种 可 能 性 预测 。 最 
后 ,把 那些 与 此 模型 有 紧密 关系 的 客户 作为 目标 。 

数据 仓库 管理 员 为 保证 探索 者 的 有 效 工 作 , 创 建 “探索 仓库 ”很 有 必要 。 探 索 仓库 是 企 
业 数 据 仓 库 的 “ 转 出 ”, 用 来 支持 某 些 特定 的 分 析 , 也 不 妨碍 企业 数据 仓库 中 其 他 常规 用 户 的 
正常 使 用 。 

建立 探索 仓库 所 依赖 的 技术 基础 是 基于 “标识 ”的 技术 (参见 4. 1. 5 节 中 “2. 标识 技 
术 ”) ,利用 基于 标识 技术 可 使 探索 仓库 非常 经 济 。 基 于 标识 的 技术 允许 把 数据 压缩 到 能 将 
数据 放置 在 内 存 中 (全 部 或 者 大 部 分 ) 的 程度 。 一旦 使 用 内 存 存储 ,分 析 和 检索 的 速度 将 大 
大 快 于 使 用 标准 企业 数据 仓库 时 的 速度 。 

探索 仓库 是 临时 性 的 ,短期 性 的 。 探 索 仓库 的 特征 是 固定 不 变 的 构造 和 重建 。 一 旦 构 
造 好 某 个 探索 仓库 , 则 再 也 不 需要 构造 具有 同样 形式 或 内 容 的 探索 仓库 。 探 索 仓库 能 够 满 
足 数 据 仓 库 环境 中 非 结 构 化 处 理 的 需要 。 探 索 仓库 适合 于 数据 挖掘 的 探索 者 。 

探索 仓库 一 般 使 用 规范 化 的 数据 结构 ,因为 探索 仓库 适用 于 不 知道 自己 需求 的 使 用 者 。 
而 星 型 模型 的 数据 结构 不 适合 探索 仓库 ,因为 星 型 模型 需要 在 知道 商业 维度 (如 产品 、 客 户 、 
时 间 ) 和 指标 (如 收入 或 者 是 成 本 ) 等 的 情况 下 使 用 数据 。 

元 数据 在 探索 仓库 环境 中 也 非常 重要 。 因 为 探索 者 用 多 种 方式 查看 探索 仓库 ,所 以 元 
数据 起 到 特别 重要 的 作用 。 在 探索 仓库 中 ,必须 建立 有 效 的 元 数据 层 。 这 个 元 数据 层 能 够 
在 每 次 重新 构造 探索 仓库 时 被 传输 到 探索 仓库 。 


5.2 数据 仓库 的 决策 支持 与 决策 支持 系统 


数据 仓库 是 一 种 能 够 提供 重要 战略 信息 ,并 获得 竞争 优势 的 新 技术 ,因此 得 到 了 迅速 的 
发 展 。 

经 理 们 和 管理 者 需要 哪些 战略 信息 来 支持 决策 呢 ? 例如 ,对 自己 公司 的 运营 有 全 面 深 
入 的 了 解 ,了 解 关 键 因 素 和 它们 之 间 是 如 何 相互 作用 的 ;监视 这 些 因素 是 如 何 随时 间 变 化 
的 ;将 公司 的 运营 状况 和 市 场 竞争 及 行业 标准 联系 起 来 比较 。 经 理 们 和 管理 者 需要 将 注意 
力 集中 在 客户 的 需求 和 喜好 上 ,集中 在 新 兴 技 术 、 销 售 市场 结 果 \ 产 品 和 服务 质量 水 平等 事 
务 上 。 制 定 和 执行 商业 战略 和 目标 时 需要 的 信息 类 型 应 包含 整个 企业 组 织 。 

战略 信息 并 不 为 企业 日 常 运作 所 用 ,不 是 关于 订货 ,发 货 ,处 理 投诉 或 者 从 银行 账户 提 
款 的 信息 。 战 略 信息 比 这 些 信息 重要 得 多 ,对 于 企业 的 生存 和 持续 健康 发 展 有 非常 重要 的 
意义 。 企 业 决定 性 的 商业 决策 有 赖 于 正确 的 战略 信息 。 

具体 的 战略 信息 有 : 

(1) 给 出 销售 量 最 好 的 产品 名 单 (排序 ); 
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(2) 找 出 出 现 问题 的 地 区 (切片 ) ; 

(3) 追踪 查找 出 现 问题 原因 (向 下 钻 取 )， 

(4) 对 比 其 他 的 数据 (横向 钻 取 ); 

(5) 显示 最 大 的 利润 ; 

(6) 当 一 个 地 区 的 销售 低 于 目标 值 时 ,提出 警告 信息 。 

建立 数据 仓库 的 目的 不 仅 是 为 了 存储 更 多 的 数据 ,而 且 是 要 对 这 些 数据 进行 处 理 并 转 
换 成 商业 信息 和 知识 ,利用 这 些 信 息 和 知识 来 支持 企业 进行 正确 的 商业 行动 ,并 最 终 获得 
效益 。 

数据 仓库 的 功能 是 在 恰当 的 时 间 ,把 准确 的 信息 传递 给 决策 者 ,使 他 能 做 出 正确 的 商业 
决策 。 

数据 仓库 的 主要 作用 是 帮助 企业 摆脱 盲目 性 ,提高 决策 的 准确 性 和 决策 速度 ,也 就 是 
说 ,数据 仓库 的 作用 正 是 帮助 企业 把 信息 与 知识 转变 为 力量 (实施 正确 的 行动 并 获得 效益 ) 。 

数据 仓库 的 决策 支持 一 般 包 括 查 询 与 报表 、 多 维 分 析 与 原因 分 析 、 预 测 未 来 。NCR 数 
据 仓库 公司 提出 了 动态 数据 仓库 及 相应 的 决策 支持 : 实时 决策 和 自动 决策 。 

针对 实际 问题 ,利用 决策 支持 能 力 , 通 过 人 机 交互 ,达到 辅助 决策 的 系统 称 为 决策 支持 
系统 。 


5.2.1 查询 与 报表 


查询 与 报表 是 数据 仓库 的 最 基本 、 使 用 得 最 多 的 决策 支持 方式 。 查 询 与 报表 可 以 使 决 
策 者 了 解 “ 目 前 发 生 了 什么 ”。 


1. 查询 


数据 仓库 提供 的 查询 环境 的 特点 是 : 

(1) 能 向 用 户 提供 查询 的 初始 化 .公式 表示 和 结果 显示 等 功能 。 

(2) 由 元 数据 来 引导 查询 过 程 。 

(3) 用 户 能 够 轻松 地 浏览 数据 结构 。 

(4) 信息 是 用 户 自己 主动 索取 的 ,而 不 是 数据 仓库 强加 给 他 们 的 。 

(5) 查询 环境 必须 要 灵活 地 适应 不 同类 型 的 用 户 。 

查询 服务 具体 体现 为 : 

(1) 查询 定义 。 确 保 数据 仓库 用 户 能 够 容易 地 将 商业 需求 转换 成 适当 的 查询 语句 。 

(2) 查询 简化 。 让 数据 和 查询 公式 的 复杂 性 对 用 户 透明 。 让 用 户 能 够 简单 地 查看 数据 
的 结构 和 属性 。 使 组 合 表格 和 结构 简单 易 用 。 

(3) 查询 重建 。 有 些 简单 的 查询 也 能 导致 高 强度 的 数据 检索 和 操作 ,因此 要 使 用 户 输 
入 的 查询 进行 分 解 并 重新 塑造 ,使 其 能 更 高 效 地 工作 。 

(4) 导航 的 简单 性 。 用 户 能 够 使 用 元 数据 在 数据 仓库 中 浏览 数据 ,并 能 容易 地 用 商业 
术语 而 不 是 技术 术语 来 导航 。 

(5) 查询 执行 。 使 用 户 能 够 在 没有 任何 IT 人 员 的 帮助 下 执行 查询 。 

(6) 结果 显示 。 能 够 以 各 种 方法 显示 查询 结果 。 
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(7) 对 聚合 的 了 解 。 查 询 过 程 机 制 必须 知道 聚合 的 事实 表 , 并 且 在 必要 的 时 候 能 够 将 
查询 重新 定义 到 聚合 表格 上 ,以 加 快 检索 速度 。 


2. 报表 


大 部 分 查询 均 要 以 报表 形式 输出 。 数 据 仓库 构建 的 报表 环境 有 : 

(1) 预 格式 化 报表 。 提 供 这 些 报表 清晰 的 描述 说 明 。 使 用 户 能 够 容易 地 浏览 格式 化 报 
表 库 中 的 报表 并 选择 他 们 需要 的 报表 。 

(2) 参数 驱动 的 预定 义 报表 。 与 预 格式 化 的 报表 相 比 ,参数 驱动 的 预定 义 报表 给 了 用 
户 更 大 的 灵活 性 。 用 户 必 须 有 能 力 来 设置 它们 自己 的 参数 ,用 预定 义 格式 创建 报表 。 

(3) 简单 的 报表 开发 。 当 用 户 除了 与 格式 化 报表 或 预定 义 报表 外 还 需要 新 的 报表 时 ， 
他 们 必须 能 够 轻松 地 利用 报表 语言 撰写 工具 来 开发 他 们 自己 的 报表 。 

(4) 公布 和 订阅 。 数 据 仓库 设置 选项 让 用 户 公 布 他 们 自己 创建 的 报表 ,并 允许 其 他 用 
户 订 阅 或 者 接收 这 些 报表 的 拷贝 。 

(5) 传递 选项 。 提 供 各 种 选项 ,诸如 群发 .电子 邮件 、 网 页 和 自动 传真 等 让 用 户 传递 报 
表 , 人 允许 用 户 选择 他 们 自己 的 方式 来 接收 报表 。 

(6) 多 数据 操作 选项 。 用 户 可 以 请 求 获得 计算 出 来 的 指标 ,通过 交换 行 和 列 变量 来 实 
现 结果 的 旋转 ,在 结果 中 增加 小 计 和 最 后 的 总 计 , 以 及 改变 结果 的 排列 顺序 等 操作 。 

(7) 多 种 展现 方式 选项 。 提 供 多 种 类 型 的 选项 ,包括 图 表 、 表 格 、 柱 形 格式 、 字 体 、 风 格 、 
大 小 和 地 图 等 。 


5.2.2 多 维 分 析 与 原因 分 析 
多 维 分 析 与 原因 分 析 能 让 决策 者 了 解 "为 什么 会 发 生 ”。 
1. 多 维 分 析 


多 维 分 析 是 数据 仓库 的 重要 的 决策 支持 手段 。 数 据 仓库 中 心 数据 是 以 多 维 数据 存储 
的 。 通 过 多 维 分 析 将 获得 在 各 种 不 同 维度 下 的 实际 商业 活动 值 (如 销售 量 等 ) ,特别 是 他 们 
的 变化 值 和 差 值 ,以 达到 辅助 决策 效果 。 例 如 通过 多 维 分 析 得 到 如 下 信息 : 

。 今年 以 来 ,公司 的 哪些 产品 量 是 最 有 利润 的 ? 

。 最 有 利润 的 产品 是 不 是 和 去 年 一 样 ? 

。 公司 今年 这 个 季度 的 运营 和 去 年 相 比 情况 如 何 ? 

”哪些 类 别 的 客户 是 最 忠诚 的 ? 

这 些 问 题 的 答案 是 典型 的 基于 分 析 的 面向 决策 的 信息 。 决 策 分 析 往 往 是 事先 不 可 知 
的 。 例 如 ,一 个 经 理 可 能 会 以 查询 品牌 利润 按 地 区 的 分 布 情况 来 开始 他 的 分 析 活动 。 每 一 
个 利润 的 数值 指 的 是 ,在 指定 时 间 内 , 某 个 品牌 所 有 产品 在 该 地 区 的 所 有 地 方 销售 利润 的 平 
均值 。 每 一 个 利润 数值 都 可 能 是 由 成 千 上 万 的 原始 数据 汇聚 而 成 的 。 

这 些 分 析 都 是 在 多 维 数据 分 析 的 基础 之 上 进行 的 。 
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2. 原因 分 析 


查找 问题 出 现 的 原因 是 一 项 很 重要 的 决策 支持 任务 ,一 般 通过 多 维 数 据 分 析 的 钻 取 操 
作 来 完成 。 

例如 , 某 公司 从 分 析 报表 中 得 知 最 近 几 个 月 来 整个 企业 的 利润 在 急速 下 滑 ,为 此 系统 分 
析 员 利用 数据 仓库 的 原因 分 析 的 决策 支持 手段 ,通过 人 机 交互 找 出 该 企业 利润 下 滑 的 原因 。 
具体 步骤 如 下 : 

(1) 查询 整个 公司 最 近 3 个 月 来 各 个 月 份 的 销售 额 和 利润 ,通过 检索 数据 仓库 中 的 数 
据 显 示 销 售 额 正常 ,但 利润 下 降 。 

(2) 查询 全 世界 各 个 区 域 每 个 月 的 销售 额 和 利润 ,通过 检索 多 维 数据 和 切 块 ,显示 欧洲 
地 区 销售 额 下 降 ,利润 急 剧 下 降 ,其 他 地 区 正常 。 

(3) 查询 欧洲 各 国 销售 额 和 利润 。 通 过 对 多 维 数据 的 钻 取 , 显 示 一 些 国家 利润 率 上 升 ， 
一 些 国家 持平 ,欧盟 国家 利润 率 急剧 下 降 。 

(4) 查询 欧盟 国家 中 的 直接 和 间接 成 本 。 通 过 对 多 维 数据 的 钻 取 , 得 出 欧盟 国家 的 直 
接 成 本 没有 问题 ,但 间接 成 本 提高 了 。 

(5) 查询 间接 成 本 的 详细 情况 。 通 过 钻 取 查看 详细 数据 ,得 出 企业 征收 了 额外 附加 税 ， 
使 利润 下 降 。 

通过 原因 分 析 ,得 出 企业 利润 下 滑 的 真正 原因 是 欧盟 国家 征收 了 额外 附加 税 。 

在 数据 仓库 中 ,在 宏观 数据 的 切片 中 发 现 的 问题 ,通过 向 下 钻 取 操 作 ,查看 下 层 大 量 详 
细 的 多 维 数据 ,才能 发 现 问题 出 现 的 原因 。 针 对 具体 问题 ,通过 数据 仓库 的 原因 分 析 , 找 出 
问题 发 生 的 原因 的 过 程 ,这 是 一 个 典型 的 数据 仓库 决策 支持 系统 简 例 。 


5.2.3 预测 未 来 


预测 未 来 使 决策 者 了 解 “将 要 发 生 什么 ”。 

数据 仓库 中 存放 了 大 量 的 历史 数据 ,从 历史 数据 中 找 出 变化 规律 ,将 可 以 用 来 预测 未 
来 。 在 进行 预测 的 时 候 需 要 用 到 一 些 预测 模型 。 最 常用 的 预测 方法 是 采用 回归 模型 ,包括 
线性 回归 或 非 线 性 回归 。 利 用 历史 数据 建立 回归 方程 ,该 方程 代表 了 沿 时 间 变 化 的 发 展 规 
律 。 预 测 时 ,将 预测 的 时 间 代 入 到 回归 方程 中 去 就 能 得 到 预测 值 。 一 般 的 预测 模型 有 多 元 
回归 模型 .三 次 平滑 预测 模型 .生长 曲线 预测 模型 等 。 

除 用 预测 模型 外 ,采用 聚 类 模型 或 分 类 模型 也 能 达到 一 定 的 预测 效果 。 

聚 类 模型 是 对 没有 类 的 大 量 实例 ,利用 距离 的 远近 (如 欧式 距离 和 海 明 距 离 等 ) ,把 大 量 
的 实例 聚 成 不 同 的 类 ,如 K-means 聚 类 算法 和 神经 网 络 的 Kohonen 算法 等 。 把 实例 聚 完 类 
后 ,对 新 的 例子 , 仍 用 距离 大 小 来 判别 它 属 于 哪个 类 。 

对 于 分 类 模型 , 它 是 对 已 经 有 了 类 别 后 ,分 别 对 各 个 不 同类 进行 类 特征 的 描述 ,如 决 
策 树 方法 .神经 网 络 的 BP 模型 等 。 分 类 模型 是 通过 对 各 类 实例 的 学 习 后 ,得 到 各 类 的 判 
别 知识 ( 即 决策 树 ,神经 网 络 的 网 络 权 数值 等 ), 利 用 这 些 知识 可 以 对 新 例 判 别 它 属于 哪 
个 类 别 。 
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5.2.4 实时 决策 


数据 仓库 的 第 4 种 决策 支持 是 企业 需要 准确 了 解 "正在 发 生 什么 ”从 而 需要 建立 动态 
数据 仓库 (实时 数据 库 ) ,用 于 支持 战术 型 决策 , 即 实时 决策 ,有 效 地 解决 当前 的 实际 问题 。 

完成 第 1 到 第 3 种 决策 支持 的 数据 仓库 都 以 支持 企业 内 部 战略 性 决策 为 重点 ,帮助 企 
业 制 定 发 展 战略 。 数 据 仓 库 对 战略 性 的 决策 支持 是 为 企业 长 期 决策 提供 必须 的 信息 ,包括 
市 场 划分 、 产 品 (类 别 ) 管 理 战 略 、 获 利 性 分 析 、 预 测 和 其 他 信息 。 

战术 性 决策 支持 的 重点 则 在 企业 外 部 ,支持 的 是 执行 公司 战略 的 员工 。 第 4 种 侧重 于 
战术 性 决策 支持 。 

数据 仓库 的 “实时 决策 ”是 指 为 现场 提供 信息 实时 支持 决策 ,如 能 及 时 补给 的 库存 管理 
和 包 囊 发 运 的 日 程 安 排 及 路 径 选择 等 。 许 多 零售 商都 倾向 于 由 卖主 管理 库存 ,自己 则 拥有 
一 条 零售 链 和 众多 作为 伙伴 的 供 货 厂商 ,其 目的 是 通过 更 有 效 的 供 货 链 管 理 来 降低 库存 成 
本 。 为 了 使 这 种 合作 获得 成 功 , 就 必须 向 供 货 商 详细 地 提供 有 关 销 售 \ 促 销 推 广 、 库 内 存货 
等 信息 的 知情 权 。 之 后 便 可 以 根据 每 个 商店 和 每 个 商品 对 库存 的 要 求 , 建 立 并 实施 有 效 的 
E 产 和 交 货 计划 。 为 了 保证 信息 确实 有 价值 ,必须 随时 刷新 信息 ,还 要 非常 迅速 地 对 查询 做 
上 响应 。 

动态 数据 仓库 能 够 逐 项 产品 .逐个 店铺 、 逐 秒 地 做 出 最 佳 决策 支持 。 

以 货运 为 例 , 统 筹 安 排 货运 车 辆 和 运输 路 线 ,需要 进行 非常 复杂 的 决策 。 卡 车 上 的 货物 
常常 需要 打开 ,把 某 些 货物 从 一 辆 车 转移 到 另 一 辆 车 上 ,以 便 最 终 送 抵 各 自 的 目的 地 。 这 有 
些 像 旅客 在 枢纽 机 场 转机 。 当 某 些 卡车 晚点 时 ,就 要 做 出 艰难 的 决定 : 是 让 后 继 的 运输 车 
等 待 迟到 的 货物 ,还 是 让 其 按时 出 发 。 如 果 后 继 车 辆 按时 出 发 而 未 等 待 迟到 的 包 玩 ,那么 迟 
到 包 襄 的 服务 等 级 就 会 大 打折 扣 。 反 过 来 说 ,等 待 迟到 的 包 庄 则 将 损害 后 继 的 运输 车 上 的 
其 他 待 运 包 右 的 服务 等 级 。 

运输 车 究竟 等 待 多 长 时 间 ,取决 于 需 件 装 到 该 车 辆 的 所 有 延迟 货物 的 服务 等 级 和 已 经 
装载 到 该 车 辆 的 货物 的 服务 等 级 。 很 显然 ,第 二 天 就 应 该 抵达 目的 地 的 货物 和 数 天 后 才 需 
达 目 的 地 的 货物 ,二 者 的 服务 等 级 及 其 实现 难度 是 大 不 相同 的 。 此 外 ,发 货 方 和 收 货 方 也 是 
决策 的 重要 考虑 因素 。 对 企业 一 利 十 分 重要 的 客户 ,其 货物 的 服务 等 级 应 该 相应 地 提高 ,以 
免 因 货物 迟到 破坏 双方 的 关系 。 延 误 货物 的 运输 路 线 、 天 气 条 件 和 许多 其 他 的 因素 也 应 予 
以 考虑 。 能 够 在 这 种 情况 下 做 出 明智 的 决策 ,相当 于 解决 了 一 个 非常 复杂 的 优化 问题 。 

显而易见 ,零担 散 货 部 经 理应 在 先进 决策 支持 功能 的 帮助 之 下 , 极 大 地 提高 其 计划 和 路 
径 选择 的 决策 质量 。 更 重要 的 是 , 若 要 实现 数据 仓库 的 决策 支持 能 力 , 作 为 决策 基础 的 信息 
就 必须 保持 随时 更 新 。 这 就 是 说 ,为 了 使 数据 仓库 的 决策 功能 真正 服务 于 日 常 业务 ,就 必须 
连续 不 断 地 获取 数据 并 将 其 填充 到 数据 仓库 中 。 战 略 决策 可 使 用 按 月 或 周 更 新 的 数据 ,而 
以 这 种 频率 更 新 的 数据 是 无 法 支持 战术 决策 的 。 此 外 ,查询 响应 时 间 必 须 以 秒 为 单位 来 稀 
量 , 才 能 满足 作业 现场 的 决策 需要 。 

与 传统 的 数据 仓库 一 样 ,最 佳 的 动态 数据 仓库 是 跨越 企业 职能 和 部 门 界限 的 。 它 既 可 
为 战术 决策 也 可 为 战略 决策 提供 资源 支持 。 动 态 数 据 仓 库 是 为 支持 企业 级 业务 目标 而 设计 
的 。 与 传统 的 数据 仓库 相 比 , 它 更 加 深入 到 企业 内 部 ,能 将 企业 的 多 种 渠道 ,包括 网 络 、 呼 叫 
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中 心 和 其 他 客户 联络 点 联 为 一 体 。 它 还 意味 着 通过 网 络 ,在 企业 各 个 角落 配置 决策 人 员 。 

动态 数据 仓库 的 主要 功能 是 缩短 重要 业务 决策 及 其 实施 之 间 的 时 间 。 重 要 的 是 将 动态 
数据 仓库 所 做 的 数据 分 析 转 换 成 可 操作 的 决策 ,这 样 才能 将 数据 仓库 的 价值 最 大 化 。 动 态 
数据 仓库 的 主导 思想 是 提高 业务 决策 的 速度 和 准确 性 ,其 目标 是 达到 近乎 实时 决策 ,生成 最 
大 价值 。 


5.2.5 自动 决策 


数据 仓库 的 第 5 种 决策 支持 是 由 事件 触发 ,利用 动态 数据 仓库 自动 决策 ,达到 “希望 发 
生 秆 人 委 全 

动态 数据 仓库 在 决策 支持 领域 中 的 角色 越 重 要 ,企业 实现 决策 自动 化 的 积极 性 就 越 高 。 
在 人 工 操作 效果 不 明显 时 ,为 了 寻求 决策 的 有 效 性 和 连续 性 ,企业 就 会 趋向 于 采取 自动 决 
策 。 在 电子 商务 模式 中 , 面 对 客 户 与 网 站 的 互动 ,企业 只 能 选择 自动 决策 。 网 站 中 或 ATM 
系统 所 采用 的 交互 式 客户 关系 管理 (CRM) 是 一 个 个 性 化 产品 供应 .定价 和 内 容 发 送 的 优化 
客户 关系 的 决策 过 程 。 这 一 复杂 的 过 程 在 无 人 介入 的 情况 下 自动 发 生 , 响 应 时 间 以 秒 或 毫 
秒 计 。 

随 着 技术 的 进步 , 越 来 越 多 的 决策 由 事件 触发 ,自动 发 生 。 例 如 ,零售 业 正 面临 电子 货 
架 标 签 的 技术 突破 。 该 技术 的 出 现 废除 了 原先 沿用 已 久 的 手工 更 换 的 老式 聚 酯 薄膜 标签 。 
电子 标签 可 以 通过 计算 机 远程 控制 来 改变 标价 ,无 需 任何 手工 操作 。 电 子 货架 标签 技术 结 
合 动态 数据 仓库 ,可 以 帮助 企业 按照 自己 的 意愿 ,实现 复杂 的 价格 管理 自动 化 ;对 于 库存 过 
大 的 季节 性 货物 ,这 两 项 技术 会 自动 实施 复杂 的 降价 策略 ,以 便 以 最 低 的 损耗 售 出 最 多 的 存 
货 。 降 价 决策 在 手工 定价 时 代 是 一 种 非常 复杂 的 操作 ,往往 代价 高 昂 ,超过 了 企业 的 承受 能 
力 。 带 有 促销 信息 和 动态 定价 功能 的 电子 货架 标签 ,为 价格 管理 带 来 了 一 个 全 新 的 世界 。 
而 且 , 动 态 数 据 仓库 还 允许 用 户 采 用 事件 触发 和 复杂 决策 支持 功能 ,以 最 佳 方案 , 逐 件 货品 、 
逐 家 店铺 、 随 时 做 出 决策 。 在 CRM 环境 中 ,利用 动态 数据 仓库 ,根据 每 一 位 客户 的 情况 做 
出 决策 都 是 可 能 的 。 

激烈 的 竞争 形势 和 日 新 月 异 的 技术 革新 推动 了 决策 技术 的 进步 。 动 态 数据 仓库 可 以 为 
整个 企业 提供 信息 和 决策 支持 ,而 不 只 限于 战略 决策 过 程 。 然 而 ,战术 决策 支持 并 不 能 代替 
战略 决策 支持 。 确 切 地 说 ,动态 数据 仓库 同时 支持 这 两 种 方式 。 动 态 数据 仓库 的 主要 工作 
量 仍然 是 战略 性 的 。 


5.2.6 决策 支持 系统 


数据 仓库 整合 了 企业 的 各 种 信息 来 源 , 能 确保 一 致 与 正确 详细 的 数据 。 它 是 一 个 庞大 
的 数据 资源 。 要 将 数据 转换 成 商业 智能 ,就 需要 利用 数据 仓库 来 建立 决策 支持 系统 。 

基于 数据 仓库 的 决策 支持 系统 是 针对 实际 问题 ,利用 分 析 工 具 或 者 编制 程序 ,采用 一 种 
或 多 种 组 合 的 决策 支持 能 力 ,例如 随机 查询 ,灵活 的 报表 ,预测 模型 等 ,对 数据 仓库 中 的 数据 
进行 多 维 分 析 , 从 而 掌握 企业 的 经 营 现状 , 找 出 现状 的 原因 ,并 预测 未 来 发 展 趋势 ,弥补 经 验 
和 直觉 的 不 足 ,协助 企业 制定 决策 增强 竞争 优势 。 

根据 NCR 公司 在 企业 政策 制定 调查 中 ,发现 企 业 的 决策 危机 上 日益 严重 。 虽 然 有 更 多 
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的 数据 ,但 是 也 有 更 多 的 决策 ,同时 决策 也 更 加 复杂 化 。 

调查 中 有 98% 的 管理 者 说 数据 一 直 在 增加 , 随 着 数据 每 年 两 倍 或 三 倍 地 增长 ,他 们 会 
被 数据 “淹没 "。 有 75% 的 管理 者 表示 他 们 每 天 所 做 的 决策 比 以 往 多 。 有 52% 的 决策 更 为 
复杂 ,这 其 中 有 83% 的 人 说 他 们 必须 针对 每 一 决策 去 参考 三 个 或 更 多 的 信息 来 源 。 

只 有 建立 基于 数据 仓库 的 决策 支持 系统 ,才能 适应 这 种 发 展 趋势 ,才能 在 适当 的 时 间 获 
得 正确 的 信息 ,快速 地 将 这 些 信息 转换 成 正确 的 决策 。 

NCR 公司 总 裁 M. Hard 列举 了 三 个 不 同性 质 公 司 失 败 的 案例 是 不 明智 决策 的 结果 。 

(1) 霸 萎 银行 ,英国 最 老 的 银行 之 一 (成 立 于 1762 年 ) ,在 1995 年 因为 在 新 加 坡 分 公司 
一 位 员工 有 2. 9 万 美元 的 错误 ,在 伦敦 的 管理 层 , 并 不 清楚 在 新 加 坡 所 发 生 的 状况 ,由 于 在 
决策 上 历经 一 连 串 错误 的 决策 ,不 出 三 年 ,银行 震 了 。 分 析 原 因 , 霸 葵 银 行 缺 乏 企 业 单一 整 
合 的 观点 ,缺乏 可 用 详细 的 数据 ,显然 在 每 日 ,每 周 甚 至 于 每 年 的 基准 上 ,缺乏 适当 的 检查 点 
或 事业 监督 。 

(2) F. W. Woolworth 于 1879 年 在 美洲 开 了 第 一 家 店 ,118 年 来 它 提 供 了 优惠 价格 的 
产品 ,培养 了 广大 的 客户 忠诚 度 。 它 一 直 是 人 们 采购 商品 的 地 方 ,可 以 买 到 任何 东西 。 但 
是 ,他 忽略 了 人 口 统计 的 改变 与 人 们 搬 住 郊区 的 趋势 ,未 实时 随 市 场 的 改变 而 调整 ,最 终 被 
上 新 的 零售 业 , 如 Wal-Mart 与 Target 等 公司 击败 。 

(3) 美国 环球 航空 TWA ,1920 年 开始 航空 邮递 时 代 ,1930 年 , 它 在 现代 技术 进展 上 领 
先 , 曾 提供 横贯 大 陆 与 横贯 大 西洋 的 飞行 。 但 是 ,后 来 它 缺 乏 信 息 科 技 的 基础 建设 来 应 付 新 
的 竞争 环境 ,在 多 处 还 停留 在 30 年 前 技术 的 基础 建设 上 。 在 倒闭 前 一 年 ,终于 了 解 必须 结 
合 来 自 多 个 系统 的 财务 .市 场 与 销售 数据 ,以 因应 市 场 改 变 快 速 且 做 出 精确 的 反应 ,但 一 切 
都 为 时 以 晚 。 

对 以 上 的 三 个 公司 的 分 析 得 出 ,建立 基于 数据 仓库 的 决策 支持 系统 就 可 以 避免 失败 的 


命 
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5.3 数据 仓库 应 用 实例 


5.3.1 航空 公司 数据 仓库 决策 支持 系统 简 例 
1. 航空 公司 数据 仓库 系统 的 功能 


航空 公司 数据 仓库 功能 模块 有 : 

市 场 分 析 : 分 析 国 内 、 国 际 、 地 区 航线 上 的 各 项 生产 指标 ; 

航班 分 析 : 分 析 某 个 特定 市 场 上 所 有 航班 的 生产 情况 ; 

班期 分 析 : 分 析 某 个 特定 市 场 上 各 班期 的 旅客 货运 分 布 情况 ; 
时 段 分 析 : 分 析 一 段 时 间 范 围 内 每 天 不 同时 段 的 流量 分 布 ; 

效益 分 析 : 分 析 航 线 ,航班 的 效益 ; 

机 型 分 析 : 分 析 不 同 种 机 型 对 客座 率 等 关键 指标 的 影响 ; 

因素 分 析 : 分 析 某 个 关键 指标 发 生变 化 后 对 其 他 指标 的 影响 程度 。 
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2. 数据 仓库 系统 的 决策 支持 


利用 数据 仓库 系统 提供 的 决策 支持 有 : 

。 一 段 时 间 内 某 特定 市 场 占有 率 、 同 期 比较 、 增 长 趋势 ; 
。 各 条 航线 的 收益 分 析 ; 

。 计划 完成 情况 ; 

。 流量 流向 分 析 ; 

。 航线 上 各 项 生产 指标 变化 趋势 的 分 析 ; 
。 航线 上 按 班期 分 析 、 汇 总 各 项 趋势 ; 

。 航线 上 按 航班 时 刻 分 析 各 项 指标 ; 
航线 上 不 同 航 班 性 质 比 较 ; 

。 航线 上 运力 投入 结构 比较 ; 

。 分 机 型 的 航线 运输 统计 ; 

。 飞 机 利用 率 统计 ; 

。 城 市 对 流量 、 流 向 对 比 ; 

。 航 向 分 机 型 收益 比较 ; 

。 航班 计划 评估 ; 

。 航线 上 不 同 机 型 的 舱位 利用 情况 。 


3. 决策 支持 系统 简 例 


通过 查询 “北京 到 各 地 区 的 航空 市 场 情 况 ”, 发现 西南 地 区 总 周转 量 出 现 了 最 大 负增长 
量 。 该 决策 支持 系统 简 例 就 是 完成 对 此 问题 进行 多 维 分 析 和 原因 分 析 , 找 出 原因 。 

具体 步 又 如 下 : 

(1) 查询 : 全 国 各 地 区 的 航空 总 周转 量 并 比较 去 年 同期 状况 

从 数据 仓库 的 综合 数据 中 , 查 出 北京 到 国内 各 地 区 航空 周转 量 并 与 去 年 同期 比较 增长 
量 , 制 成 直方 图 进行 显示 ,如 图 5. 1 所 示 。 

从 图 5.1 中 看 到 从 北京 到 国内 各 地 区 的 总 周转 量 以 及 与 去 年 同期 的 比较 情况 ,发 现 
“北京 一 西南 地 区 ”出 现 的 负增长 最 大 。 

(2) 查询 : 全 国 各 地 区 客运 周转 量 以 及 和 去 年 同期 相 比较 

从 数据 仓库 的 总 周转 量 数据 中 下 钻 到 客运 周转 量 并 与 去 年 同期 比较 增长 量 , 制 成 直方 
图 显示 ,如 图 5.2 所 示 。 

从 图 5. 2 中 看 到 客运 周转 量 及 与 去 年 同期 比较 ,西南 地 区 负增长 在 全 国 是 最 大 的 ,其 次 
是 东北 地 区 。 

(3) 查询 : 全 国 各 地 区 航空 货运 周转 量 及 与 去 年 同期 比较 

从 数据 仓库 的 总 周转 量 数据 中 下 钻 到 货运 周转 量 并 与 去 年 同期 比较 增长 量 , 制 成 直方 
图 显示 ,如 图 5.3 所 示 。 
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图 5.3 北京 到 国内 各 地 区 货运 周转 量 及 与 去 年 同期 比较 
从 图 5. 3 中 看 到 货运 周转 量 及 与 去 年 同期 比较 ,华东 地 区 负增长 在 全 国 是 最 大 的 ,西南 
地 区 也 有 负增长 。 


(4) 查询 : 全 国 各 地 区 客运 ,货运 ,总 周转 量 及 其 去 年 同期 比较 的 具体 数据 
从 数据 仓库 综合 数据 中 直接 取 数 据 , 制 成 表格 显示 ,如 表 5.1 所 示 。 


从 表 5. 1 中 可 以 看 出 航空 客运 、 货 运 、 总 周转 量 以 及 与 去 年 同期 比较 的 具体 数据 。 西 南 
地 区 总 周转 量 的 负增长 主要 是 客运 负增长 为 主体 。 
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表 5.1 客运、 货运. 总 周转 量 及 其 去 年 同期 比较 


客运 周转 量 | 对 比 去 年 增长 量 | 货运 周转 量 | 对 比 去 年 增长 量 | 总 周转 量 | 对 比 去 年 增长 量 

东北 地 区 11. 86 一 5 1.29 一 到 5 i315 —66 
华北 地 区 34. 88 15.03 到 4 0.75 36 15:.78 
华东 地 区 479. 30 126. 52 36.16 —25;59 515. 46 100. 93 
西北 地 区 51.60 18.05 9.0 来 这 60.6 25, 25 
西南 地 区 15. 43 一 19.35 3. 29 =0.56 18.72 一 区 全 
新 疆 地 区 29. 02 0 5.85 0 34. 87 0 

中 南 地 区 643. 43 295. 86 116. 85 60.70 760. 28 356. 56 


(5) 查询 : 西南 地 区 昆明 .重庆 两 地 航空 总 周转 量 以 及 与 去 年 同期 比较 
从 数据 仓库 总 周转 量 下 钻 到 西南 地 区 昆明 .重庆 两 地 的 总 周转 量 以 及 与 去 年 同期 的 比 
较 , 制 成 直方 图 显示 ,如 图 5.4 所 示 。 


和 西南 地 区 客 货 航 运 
口 总 周转 量 
-10 
-15 
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图 5.4 西南 地 区 昆明 ,重庆 两 地 航空 总 周转 量 及 与 去 年 同期 比较 


从 图 5.4 中 看 出 ,西南 地 区 航空 总 周转 量 下 降 最 多 的 是 昆明 航线 。 

(6) 查询 : 昆明 航线 按 不 同 机 型 显示 各 自 的 总 周转 量 并 比较 去 年 同期 情况 

从 数据 仓库 中 西南 地 区 取出 按 机 型 维 的 各 自 机 型 的 总 周转 量 以 及 比较 去 年 同期 增长 
量 ,用 柱 形 图 显示 ,如 图 5.5 所 示 。 


西南 地 区 机 型 
口 总 周转 量 


加 总 周转 量 比 去 
年 同期 增长 


(说 明 : A : 150 座 级 ; B: 200 座 级 ; C: 300 座 级 以 上 ; D : 200~300 座 级 ) 
图 5.5 昆明 航线 各 机 型 总 周转 量 以 及 与 去 年 同期 比较 的 柱 形 图 
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从 图 5. 5 中 可 以 看 出 昆明 航线 中 200 一 300 座 级 机 型 负增长 最 大 ,其 次 是 150 座 级 机 型 
也 有 较 大 的 负增长 ,而 200 座 级 以 及 300 座 级 以 上 机 型 保持 同 去 年 相同 的 航运 水 平 。 

(7) 查询 : 昆明 航线 按 不 同 机 型 的 周转 量 并 比较 去 年 同期 的 具体 数据 

从 数据 仓库 中 直接 取 数 据 , 制 成 表格 显示 ,如 表 5. 2 所 示 。 


表 5.2 昆明 航线 各 机 型 总 周转 量 以 及 与 去 年 同期 比较 的 数据 


总 周转 量 对 比 去 年 增长 量 
150 座 级 12. 99 一 16.83 
200 座 级 10. 07 0 
300 座 级 以 上 10.07 0 
200 一 300 座 级 2.91 一 26.9 


从 表 5. 2 中 可 以 看 出 不 同 机 型 的 总 周转 量 以 及 对 比 去 年 同期 增长 的 具体 数据 。 

以 上 决策 支持 系统 过 程 完成 了 对 航空 公司 全 国 各 地 区 总 周转 量 对 比 去 年 同期 出 现 负 增 
长 量 最 大 的 西南 地 区 ,经 过 多 维 分 析 和 原因 分 析 , 找 出 其 原因 发 生 在 昆明 航线 上 ,主要 是 
200 一 300 座 级 机 型 的 总 周转 量 负增长 以 及 150 座 级 机 型 负增长 量 造成 的 。 其 中 ,200 一 300 
座 级 负增长 最 严重 。 这 为 决策 者 提供 了 解决 西南 地 区 负增长 问题 辅助 决策 的 信息 。 


4. 决策 支持 系统 结构 图 
将 以 上 决策 支持 系统 过 程 用 决策 支持 系统 结构 图 画 出 ,如 图 5. 6 所 示 。 
5. 决策 支持 系统 应 用 


以 上 决策 支持 系统 只 是 找 出 西南 地 区 航运 负增长 问题 是 由 在 昆明 航线 上 200 一 300 座 
级 以 及 150 座 级 机 型 的 负增长 所 直接 造成 的 。 还 可 以 通过 昆明 航线 上 航班 时 间 以 及 其 他 方 
面 进 行 原因 分 析 , 找 出 其 他 原因 ,为 决策 者 提供 更 多 的 辅助 决策 信息 。 

同样 ,可 以 根据 国内 各 地 区 航空 市 场 状 况 对 比 去 年 同期 增长 显著 的 中 南 地 区 , 找 出 总 周 
转 量 大 幅 提高 的 原因 。 

从 正 反 两 方面 来 进行 多 维 分 析 和 原因 分 析 ,将 可 以 得 到 更 多 的 辅助 决策 信息 ,减少 负 增 
长 , 增 大 正 增长 ,提高 更 大 利润 。 

进行 多 方面 分 析 的 大 型 决策 支持 系统 ,将 可 以 发 挥 更 大 的 辅助 决策 效果 。 


5.3.2 统计 业 数据 仓库 系统 
1. 统计 业 数据 仓库 解决 方案 


统计 信息 是 科学 决策 和 宏观 管理 的 重要 基础 ,是 国民 经 济 核算 的 中 心 ,是 了 解 国情 国 
力 、 指 导 国 民 经 济 和 社会 发 展 的 信息 主体 。 统 计 部 门 作 为 国家 法 定 的 专职 信息 职能 部 门 , 担 
负 着 对 国民 经 济 和 社会 发 展 情况 进行 统计 调查 、 统 计 分 析 、 提 供 统计 资料 和 统计 咨询 意见 、 
实行 统计 监督 的 神圣 职责 。 
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检索 : 数据 仓库 中 今年 、 去 年 
| 一 一 一 | 两 年 总 周转 量 综合 数据 ， 并 比 
较 。 


绘制 直方 图 


去 年 同期 状况 


1 
查询 : 全 国 各 地 区 航空 客运 周转 量 并 比 上 
司 期 状况 一 ~ 下 外 : 从 总 周转 量 下 外 到 今年 、 
| 一 去 年 两 年 客运 周转 量 ， 并 比较 。 


和 一 -一 一 绘制 直方 图 
查询 ; 全 国 各 地 区 航空 货运 周转 量 并 比 | .| 下 钻 ; 从 总 周转 量 下 钻 到 今年 、 

ee | | 去 年 两 年 货运 周转 量 ， 并 比较 。 
显示 : 图 5.3 | 绘制 直方 图 


查询 : 全 国 各 地 区 客运 、 货运 、 总 周转 一 ,| 


量 并 比较 去 年 同期 状况 具体 数据 制 表 : 从 数据 仓库 中 取 数 据 并 
| 一 一 | 制 表 
显示 : 表 5.1 | 
查询 : 西南 地 区 昆明 、 重庆 两 地 航空 总 下 钻 : 从 西南 地 区 总 周转 量 下 钻 
周转 量 并 比较 去 年 同期 状况 六 取 昆 明 、 重 庆 两 地 的 今年 、 去 年 
有 两 年 数据 并 比较 。 
显示 : 4 绘制 直方 图 
查询 : 昆明 航线 按 不 同 机 型 的 总 周转 量 ， 下 钻 : 从 昆明 航线 总 周转 量 下 钻 ， 
并 比较 去 年 同期 状况 一 | 取 各 机 型 今年 、 去 年 两 年 数据 并 
比较 。 
显示 , 图 55 ee | 绘制 直方 
查询 : 昆明 航线 按 不 同 机 型 的 周转 量 ， 
并 比较 去 年 同期 周转 量 的 具体 数据 一 | 制 表 : 从 数据 仓库 中 取 数据 并 
| 一 一 一 | 制 表 
显示 : 表 5.2 一 一 | 
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图 5.6 决策 支持 系统 结构 图 


目前 ,国外 统计 行业 成 功 的 做 法 之 一 是 采用 先进 的 、 成 熟 的 数据 仓库 技术 。 数 据 仓库 是 
言 息 技 术 领 域 的 新 概念 ,是 近年 来 迅速 发 展 起 来 的 一 种 信息 存储 及 管理 技术 。 它 存储 大 量 
的 ,决策 分 析 所 必需 的 \ 历 史 的 、 分 散 的 各 种 数据 ,经 过 处 理 将 这 些 资料 和 数据 转换 成 集中 统 
一 、 随 时 可 用 的 信息 。 它 能 方便 地 提供 统计 业务 人 员 和 各 级 领导 进行 随机 查询 和 任意 的 分 
析 处 理 ; 它 具有 在 任何 时 间 、 任 何 业务 .回答 任 何 问题 的 能 力 ; 利 用 数据 仓库 前 端的 数据 挖掘 
工具 和 人 工 智能 技术 ,统计 业务 人 员 还 可 以 建立 各 种 统计 调查 、 统 计 分 析 和 统计 预测 模型 ， 
以 分 析 国 民 经 济 、 工 农业 产值 、 人 口 等 领域 的 现状 及 发 展 变化 趋势 和 方向 。 

利用 数据 仓库 技术 , 既 能 够 快速 实现 传统 的 统计 报表 、 统 计 图 形 功能 ,又 能 够 利用 数据 
仓库 的 数据 挖掘 技术 在 统计 预测 和 决策 支持 管理 中 发 挥 重 要 作用 。 

面 对 日 新 月 异 的 信息 技术 ,统计 业 面临 以 下 三 方面 的 需求 : 
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(1) 数据 的 集中 存储 与 管理 

统计 行业 掌握 着 大 量 的 .各 历史 年 度 的 原始 调查 资料 , 受 历史 和 技术 (数据 库存 储 处 理 
能 力 的 限制 ) 等 因素 的 制约 ,这 些 资料 大 都 还 保留 在 纸 介质 、 脱 机 的 磁带 和 软盘 上 。 由 于 缺 
乏 大 型 数据 库 的 集中 存储 和 统一 管理 , 随 着 年 代 的 增加 ,这 些 资料 的 保存 和 安全 受到 严峻 的 
考验 ;同时 ;这 些 宝 贵 的 原始 资料 不 能 为 统计 业务 人 员 随 机 查询 和 充分 共享 ,不 能 进行 有 效 
的 统计 分 析 、 预 测评 估 和 使 用 ;难以 快速 地 为 管理 决策 提供 科学 依据 。 

(2) 查询 方式 和 分 析 手 段 的 更 新 

随 着 统计 数据 处 理 方式 由 逐 级 汇总 到 计算 机 超级 汇总 的 转变 ,统计 报表 和 统计 分 析 需 
要 从 大 量 各 种 各 样 的 原始 材料 中 汇总 整理 各 种 不 同 需求 ,反映 不 同 侧面 的 综合 分 析 数 据 , 传 
统 的 处 理 手段 主要 通过 编写 程序 来 实现 ;这 样 做 的 模式 是 固定 的 , 且 维 护 工作 量 大 ,开发 周 
期 长 。 为 改变 这 种 现状 就 需要 一 种 技术 或 一 种 前 端 查询 分 析 工 具 , 统 计 业 务 人 员 可 以 根据 
任意 条 件 、 任 意 模 式 进 行 任意 组 合生 成 查询 结果 ,同时 利用 该 工具 能 进行 分 析 处 理 , 能 够 方 
便 地 组 成 各 种 多 维 报表 和 统计 图 形 ,如 条 形 图 、 饼 图 、 曲 线 图 、 多 维 立方 图 等 。 另 外 ,针对 一 
些 深层 次 的 研究 需要 ,还 应 提供 一 些 统计 分 析 智 能 软件 和 智能 算法 以 预测 未 来 经 济 发 展 模 
式 和 走势 。 

(3) 与 Web 技术 的 有 机 结合 

数据 仓库 技术 与 Web 技术 结合 起 来 是 采用 目前 流行 的 三 层 应 用 体系 结构 对 系统 进行 
应 用 开发 。 所 谓 三 层 结构 ,是 指 后 台 是 数据 仓库 ,前 台 是 Web 服务 器 ,分布 在 各 地 的 客户 端 
采用 浏览 器 的 应 用 模式 。 利 用 这 种 技术 ,可 以 实现 网 上 动态 信息 发 布 .网 上 随机 查询 和 网 上 
联机 分 析 处 理 等 功能 ,最 终 的 目标 是 使 统计 业务 人 员 的 日 常 工作 完全 在 Web 上 实现 。 

针对 以 上 需求 ,信息 领域 新 技术 的 应 用 特别 是 数据 仓库 技术 的 应 用 ,是 必然 趋势 。 


2. 某 市 统计 局 企业 微观 数据 仓库 系统 


实现 某 市 统计 局 企业 微观 数据 仓库 是 把 掌握 的 不 同 专业 、 不 同时 期 ,分散 的 企业 微观 数 
据 信息 ,按照 多 个 主题 集中 存储 和 管理 在 数据 仓库 中 ,灵活 地 、 非 常 方便 地 实现 固定 的 和 随 
机 动态 的 数据 查询 处 理 ,综合 分 析 和 统计 报表 。 根 据 统计 信息 自动 化 总 体 规划 要 求 ,这些 查 
询 、 分 析 和 报表 功能 以 及 今后 统计 人 员 的 日 常 业务 处 理工 作 都 需 在 Web 上 进行 。 

在 实现 数据 仓库 之 前 , 某 市 统计 局 已 开发 有 企业 微观 数据 库 系 统 , 受 当时 技术 条 件 的 限 
制 , 该 系统 的 设计 思路 是 按 工 业 、 建 筑 业 .运输 邮电 业 和 批发 零售 贸易 .餐饮 业 等 不 同 专业 分 
别 建 模 ,每 个 专业 都 对 应 的 一 套数 据 存储 表 和 管理 字典 ,共性 数据 依照 专业 被 进行 分 割 、 分 
别 进行 存储 ,这 样 做 虽然 数据 管理 条 理 清楚 ,安全 性 能 好 ,查询 方式 易于 接受 ,但 存在 的 问题 
是 查询 方式 不 够 灵活 ,不同 专 业 的 指标 横向 比较 困难 ,难以 实现 产 、 供 、 销 等 企业 生产 各 个 阶 
段 数 据 的 一 条 龙 分 析 研究 ,同时 受 软 件 条 件 限 制 ,无 法 实现 Web 方式 查询 且 速 度 较 慢 。 数 
据 仓库 是 面向 主题 建 模 , 在 进行 设计 的 时 候 , 将 企业 微观 数据 仓库 设计 成 以 下 主题 : 

(1) 企业 基本 情况 : 各 年 度 、 各 专业 统计 调查 单位 基本 情况 名 录 的 主要 内 容 及 全 部 标 
识 性 内 容 。 

(2) 企业 财务 状况 : 各 年 度 、 各 专业 企业 的 资产 ,经营 投 入 、 产 出 效益 等 财务 经 营 状 况 。 

(3) 企业 劳动 状况 : 各 年 度 、 各 专业 企业 的 就 业 人 数 及 工资 收入 情况 。 
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(4) 企业 消耗 状况 : 各 年 度 、 各 专业 企业 生产 所 需 的 原材料 及 能 源 消耗 情况 ,包括 价值 
量 和 实物 量 消耗 情况 。 

(5) 企业 生产 状况 : 各 年 度 、 各 专业 企业 的 主 营 生产 情况 。 由 于 不 同 专业 的 生产 方式 
不 同 ,又 下 设 了 若干 子 方面 及 工业 产品 产销 存 情况 ,建筑 业 生产 完成 情况 ,人 公路、 水运、 港口 
企业 生产 完成 情况 ,商业 、 和 餐饮 业 销 售 经 营 情况 。 

这 样 建 模 以 后 ,不同 年度, 不 同 专业 的 同类 数据 被 集中 进行 存储 ,如 此 一 来 ,指标 无 论 是 
横向 比较 还 是 纵向 比较 都 非常 容易 ,并 且 整 个 系统 只 需要 维护 一 套数 据 字典 (元 数据 )。 

数据 建 模 是 数据 仓库 设计 中 非常 重要 的 一 个 环节 , 它 包括 逻辑 建 模 和 物理 建 模 。 在 企 
业 微观 数据 仓库 中 是 利用 ERWIN 专业 工具 来 建立 模型 ,并 形成 相应 的 数据 库 结 构 。 企 业 
微观 数据 仓库 的 源 数 据 是 历年 存储 到 微机 上 的 数据 ,数据 的 格式 、 存 储 方式 不 尽 相同 , 在 加 
载 到 数据 仓库 之 前 ,这 些 数据 必须 经 过 净化 筛选 .加工 整理 以 及 数据 集成 。 利 用 NCR 提供 
的 FastLoad 和 其 他 工具 ,能 方便 地 将 经 过 处 理 的 数据 加 载 到 NCR 数据 仓库 里 。 目 前 企业 
微观 数据 仓库 已 存储 2 年 各 4 个 专业 的 历史 数据 ,其 他 年 度 的 数据 正在 整理 当中 。 

应 用 开发 的 模式 是 基于 目前 流行 的 三 层 结 构 , 即 后 台 是 数据 仓库 ,前 台 是 Web 服务 器 ， 
客户 端 是 浏览 器 。Brio Enterprise 商业 智能 工具 提供 了 很 好 的 基于 Web 浏览 器 的 查询 、 联 
机 分 析 及 报表 功能 ,并 且 具 有 极 高 的 安全 性 和 严格 的 权限 访问 等 级 。 企 业 微观 数据 仓库 系 
统 的 前 端 应 用 都 是 基于 Web 方式 开发 , 它 具 有 网 上 随机 查询 .网 上 多 维 分 析 ` 网 上 数据 外 
取 、 网 上 图 形 分 析 、 网 上 表格 旋转 透视 .网 上 多 维 报表 等 功能 ,并 且 操 作 方式 都 是 拖拉 方式 ， 
今后 统计 业务 人 员 的 月 报 \ 年 报 等 数据 处 理 都 可 以 在 网 上 进行 。 数 据 仓库 的 好 处 效益 和 威 
力 被 发 挥 得 淋漓 尽 致 。 


5.3.3 沃尔玛 数据 仓库 系统 


美国 的 沃尔玛 (Wal-Mart) 是 世界 最 大 的 零售 商 。2002 年 4 月 ,该 公司 跃 居 《 财 富 》500 
强 企 业 排 行 第 一 。 在 全 球 拥有 4000 多 家 分 店 和 连锁 店 。Wal-Mart 建立 了 基于 NCR 
Teradata 数据 仓库 的 决策 支持 系统 , 它 是 世界 上 第 二 大 的 数据 仓库 系统 ,总 容量 达到 
170TB 以 上 。 

沃尔玛 成 功 的 重要 因素 是 与 其 充分 利用 了 信息 技术 分 不 开 的 ,也 可 以 说 是 对 信息 技术 
的 成 功 运用 造就 了 沃尔玛 。 强 大 的 数据 仓库 系统 将 世界 4000 多 家 分 店 的 每 一 笔 业务 数据 
汇总 到 一 起 ,让 决策 者 能 够 在 很 短 的 时 间 里 获得 准确 和 及 时 的 信息 ,并 做 出 正确 和 有 效 的 经 
营 决 策 。 而 沃尔玛 的 员工 也 可 以 随时 访问 数据 仓库 ,以 获得 所 需 的 信息 ,而 这 并 不 会 影响 数 
据 仓 库 的 正常 运转 。 关 于 这 一 点 ,沃尔玛 的 创始 人 山姆 ， 沃 尔 顿 在 他 的 自传 《Made in 
America: My Story) 一 书 是 这 样 描述 的 :“ 你 知道 ,我 总 是 喜欢 尽快 得 到 那些 数据 、 我 们 越 
快 得 到 那些 信息 .我们 就 能 越 快 据 此 采取 行动 ,这 个 系统 已 经 成 为 我 们 的 一 个 重要 工具 ”。 
沃尔玛 的 数据 仓库 始 建 于 20 世纪 80 年 代 。 自 1980 年 以 来 ,NCR 一 直 在 帮助 沃尔玛 经 营 
世界 上 最 大 的 数据 仓库 系统 。1988 年 沃尔玛 数据 仓库 容量 为 12GB,1989 年 升级 为 24GB， 
以 后 逐年 增长 ,1996 年 其 数据 量 达 7. 5TB,1997 年 为 了 圣诞 节 的 市 场 预测 和 分 析 , 沃 尔 玛 
将 数据 仓库 容量 扩展 到 24TB。 而 到 了 信息 技术 飞速 发 展 的 今天 ,沃尔玛 的 数据 仓库 已 经 
惊人 地 达到 了 超过 170TB。 利 用 数据 仓库 ,沃尔玛 对 商品 进行 市 场 类 组 分 析 (Marketing 
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Basket Analysis) , 即 分 析 哪 些 商 品 顾 客 最 有 希望 一 起 购买 。 沃 尔 玛 数据 仓库 里 集中 了 各 个 
商店 一 年 多 详细 的 原始 交易 数据 。 在 这 些 原始 交易 数据 的 基础 上 ,沃尔玛 利用 自动 数据 挖 
掘 工具 (模式 识别 软件 ) 对 这 些 数据 进行 分 析 和 挖掘 。 一 个 意外 的 发 现 就 是 : 跟 尿布 一 起 购 
买 最 多 的 商品 竟 是 啤酒 ! 按 常 规 思维 ,尿布 与 啤酒 风 马 牛 不 相 及 , 若 不 是 借助 于 数据 仓库 系 
统 , 商 家 绝 不 可 能 发 现 隐藏 在 背后 的 事实 : 原来 美国 的 太太 们 常 叮嘱 她 们 的 丈夫 下 班 后 为 
小 孩 买 尿布 ,而 丈夫 们 在 买 尿 布 后 又 随手 带 回 了 两 瓶 啤酒 。 既 然 尿 布 与 啤酒 一 起 购买 的 机 
会 最 多 ,沃尔玛 就 在 它 的 一 个 个 商店 里 将 它们 并 排 摆 放 在 一 起 ,结果 是 尿布 与 啤酒 的 销量 双 
双 增 长 。 由 于 这 个 故事 的 传奇 和 出 人 意料 ,所 以 一 直 被 业界 和 商界 所 传诵 。 

这 个 故事 仅仅 是 沃尔玛 借助 数据 仓库 受益 的 一 连 串 成 功 故事 的 一 个 花絮 而 已 。 如 今 ， 
沃尔玛 利用 NCR 的 Teradata 对 超过 7. 5TB 的 数据 进行 存储 ,这 些 数据 主要 包括 各 个 商店 
前 端 设备 (POS ,扫描 仪 ) 采 集 来 的 原始 销售 数据 和 各 个 商店 的 库存 数据 。Teradata 数据 库 
里 存 有 196 亿 条 记录 ,每 天 要 处 理 并 更 新 2 亿 条 记录 ,要 对 来 自 6000 多 个 用 户 的 48 000 条 
查询 语句 进行 处 理 。 销 售 数据 .库存 数据 每 天 夜间 从 4000 多 个 商店 自动 采集 过 来 ,并 通过 
卫星 线路 传 到 总 部 的 数据 仓库 里 。 沃 尔 玛 数据 仓库 里 最 大 的 一 张 表 格 (Table) 容 量 已 超过 
300GB, 存 有 50 亿 条 记录 ,可 容纳 65 个 星期 4000 多 个 商店 的 销售 数据 ,而 每 个 商店 有 
5 万 一 8 万 个 商品 品种 .利用 数据 仓库 ,沃尔玛 在 商品 分 组 布局 .降低 库存 成 本 .了 解 销 售 全 
局 .进行 市 场 分 析 和 趋势 分 析 等 方面 进行 决策 支持 分 析 , 具 体 表 现 如 下 。 


1. 商品 分 组 布局 


作为 微观 销售 的 一 种 策略 ,合理 的 商品 布局 能 节省 顾客 的 购买 时 间 ,能 刺激 顾客 的 购买 
和 欲望。 沃尔玛 利用 前 面 提 到 的 市 场 类 组 分 析 (MBA) ,分 析 顾 客 的 购买 习惯 ,掌握 不 同 商品 
一 起 购买 的 概率 ,甚至 考虑 购买 者 在 商店 里 所 穿行 的 路 线 、 购 买 时 间 和 地 点 ,从 而 确定 商品 
的 最 佳 布局 。 


2. 降低 库存 成 本 


加 快 资金 周转 ,降低 库存 成 本 是 所 有 零售 商 面临 的 一 个 重要 问题 。 沃 尔 玛 通 过 数据 仓 
库 系 统 , 将 成 千 上 万 种 商品 的 销售 数据 和 库存 数据 集中 起 来 ,通过 数据 分 析 , 以 决定 对 各 个 
商店 各 色 货 物 进行 增 减 ,确保 正确 的 库存 。 数 十 年 来 ,沃尔玛 的 经 营 哲学 是 “代销 ?供应 商 的 
商品 ,也 就 是 说 ,在 顾客 付款 之 前 ,供应 商 是 不 会 拿 到 货款 的 。NCR 的 Teradata 数据 仓库 
使 他 们 的 工作 更 具 成 效 。 数 据 仓库 强大 的 决策 支持 系统 每 周 要 处 理 25000 个 复杂 查询 ,其 
中 很 大 一 部 分 来 自 供 应 商 ,库存 信息 和 商品 销售 预测 信息 通过 电子 数据 交换 (EDI) 直 接送 
到 供应 商 那 里 。 数 据 仓库 系 统 不 仅 使 沃尔玛 省 去 了 商业 中 介 , 还 把 定期 补充 库存 的 担子 转 
嫁 到 供应 商 身上 。1996 年 ,沃尔玛 开始 通过 Web 站 点 销售 商品 ,商品 都 是 从 供应 商 处 直接 
订货 。Web 站 点 销售 相当 成 功 ,在 其 投入 运营 的 第 一 个 周末 就 卖 出 了 100 多 万 件 商品 。 


3. 了 解 销售 全 局 


各 个 商店 在 传送 数据 之 前 , 先 对 数据 进行 如 下 分 组 : 商品 种 类 销售 数量 .商店 地 点 、 价 
格 和 日 期 等 。 通 过 这 些 分 类 信息 ,沃尔玛 能 对 每 个 商店 的 情况 有 个 细致 的 了 解 。 在 最 后 一 
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家 商店 关门 后 一 个 半 小 时 ,沃尔玛 已 确切 知道 当天 的 运营 和 财政 情况 。 和 凭借 对 瞬间 信息 的 
随时 捕捉 ,沃尔玛 对 销售 的 每 一 点 增长 ,库存 货物 百分比 的 每 点 上 升 和 通过 前 价 而 提高 的 每 
一 份 销售 额 都 了 如 指 掌 。 

4. 市 场 分 析 

沃尔玛 利用 数据 挖掘 工具 和 统计 模型 对 数据 仓库 的 数据 仔细 研究 ,以 分 析 顾 客 的 购买 
习惯 ,广告 成 功率 和 其 他 战略 性 的 信息 。 沃 尔 玛 在 每 周 六 的 高 级 会 议 上 要 对 世界 范围 内 销 
售 量 最 大 的 15 种 商品 进行 分 析 , 然 后 确保 在 准确 的 时 间 合适 的 地 点 有 所 需要 的 库存 。 


5. 趋势 分 析 


沃尔玛 利用 数据 仓库 对 商品 品种 和 库存 的 趋势 进行 分 析 ,以 选 定 需要 补充 的 商品 ,研究 
顾客 购买 趋势 ,分 析 季 节 性 购买 模式 ,确定 降价 商品 ,并 对 其 数量 和 运作 做 出 反应 。 为 了 能 
够 预测 出 季节 性 销售 量 , 它 要 检索 数据 仓库 拥有 100 000 种 商品 一 年 多 来 的 销售 数据 ,并 在 
此 基础 上 进行 分 析 和 知识 挖掘 。 

山姆 . 沃 尔 顿 在 他 的 自传 中 写 道 :“ 我 能 项 刻 之 间 把 信息 提取 出 来 ,而 且 是 所 有 的 数 
据 。 我 能 拿 出 我 想 要 的 任何 东西 ,并 确切 地 讲 出 我 们 卖 了 多 少 .” 这 感觉 就 像 在 信息 的 海洋 
里 , “轻舟 已 过 万 重山 *"。 他 还 写 道 :“ 我 想 我 们 总 是 知道 那些 信息 赋予 你 一 定 的 力量 ,而 我 
们 能 在 计算 机 内 取出 这 些 数据 的 程度 会 使 我 们 具有 强大 的 竞争 优势 。” 

沃尔玛 神奇 的 增长 在 很 大 部 分 也 可 以 归功 于 成 功 地 建立 了 基于 NCR Teradata 的 数据 
仓库 系统 。 数 据 仓库 改变 了 沃尔玛 ,而 沃尔玛 改变 了 零售 业 。 在 它 的 影响 下 ,世界 顶尖 零售 
企业 Sears、Kmart、JCPenney、No. 1GermanRetailer 日 本 西武 .日 本 三 越 等 先后 建立 了 数据 
仓库 系统 。 沃 尔 玛 的 成 功 给 人 以 启示 : 唯 有 站 在 信息 巨人 的 肩头 ,才能 掌握 无 限 , 创 造 
辉煌 。 


习 题 5 


. 数据 仓库 两 类 用 户 有 什么 本 质 的 不 同 ? 
. 数据 仓库 的 信息 使 用 者 与 数据 库 的 信息 使 用 者 有 什么 不 同 ? 
. 信息 使 用 者 的 主要 性 能 需求 是 什么 ? 
为 什么 要 增加 数据 元 余 能 提高 查询 速度 ? 
聚集 数据 与 聚 类 数据 有 什么 不 同 ? 
什么 是 合并 查询 ? 
. 探索 者 所 做 的 工作 有 哪些 ? 
. 数据 仓库 的 探索 者 的 工作 与 数据 库 的 数据 挖掘 者 的 工作 有 什么 不 同 ? 
. 说 明 企业 需 要 哪些 战略 信息 与 实现 方法 。 
10. 简 述 数据 仓库 查询 服务 内 容 。 
11. 说 明 数 据 仓库 的 查询 内 容 与 数据 库 的 查询 内 容 有 什么 不 同 。 
12. 说 明 如 何 利用 数据 仓库 发 现 问题 并 找 出 产生 问题 的 原因 。 
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说 明 如 何 利用 数据 仓库 来 进行 预测 。 

数据 仓库 如 何 实现 实时 决策 ? 

数据 仓库 如 何 实现 自动 决策 ? 

对 5.2.2 节 中 原因 分 析 的 实例 ,设计 并 画 出 决策 支持 系统 结构 图 。 

在 国内 某 市 统计 局 数据 仓库 中 选 出 两 个 主题 画 出 星 型 模型 图 。 

利用 沃尔玛 数据 仓库 系统 说 明 数 据 仓库 的 价值 。 

利用 数据 仓库 的 数据 资源 建立 的 决策 支持 系统 与 传统 的 利用 模型 资源 和 数据 库 的 


数据 资源 建立 的 决策 支持 系统 有 什么 区 别 ? 如 何 合并 起 来 建立 具有 更 强 能 力 的 决策 支持 


系统 ? 
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第 5 浊 ”数据 洛 滑 原理 
6.1 数据 挖掘 综 述 


6.1.1 数据 挖掘 与 知识 发 现 


知识 发 现 (Knowledge Discovery in Database,KDD) 被 认为 是 从 数据 中 发 现 有 用 知识 
的 整个 过 程 。 数 据 挖掘 被 认为 是 KDD 过 程 中 的 一 个 特定 步骤 , 它 用 专门 算法 从 数据 中 抽 
取 模 式 (pattern)。 

KDD 过 程 定 义 为 (Fayyad,Piatetsky-Shapiror 和 Smyth,1996): KDD 是 从 数据 集中 识 
别 出 有 效 的 、 新 颖 的 潜在 有 用 的 ,以 及 最 终 可 理解 的 模式 的 高 级 处 理 过 程 。 

其 中 ,数据 集 : 事实 下 (数据 库 元 组 ) 的 集合 ;模式 : 用 语言 L 表示 的 表达 式 下 , 它 所 描述 
的 数据 是 集合 下 的 一 个 子 集 Fe, 它 是 Fs 的 精练 表达 ,我 们 称 下 为 模式 ;有 效 、 新 颖 、 潜 在 有 
用 、 可 被 人 理解 : 表示 发 现 的 模式 有 一 定 的 可 信和 度 , 应 该 是 新 的 ,将 来 有 实用 价值 ,能 被 用 户 
所 理解 。 

KDD 过 程 图 如 图 6. 1 所 示 。 


1 | 
' 选择 | 目标 | 预 处 理 据 处 理 | 转换 转换 | 数据 挖 据 模式 评价 |! 
| 2 | | | 人 ~ a | 
1 T 1 1 
| T 1 | 
1 一 数据 准备 ----------- 一 一 -数据 控 据 -一 一 一 一 -结果 评价 一- 一 


图 6.1 KDD 过程 图 


KDD 过 程 可 以 概括 为 三 部 分 : 数据 准备 (Data Preparation) 数据 挖掘 (Data Mining) 
及 结果 的 解释 和 评价 (Interpretation & Evaluation ) 。 


1. 数据 准备 


数据 准备 又 可 分 为 三 个 子 步 又: 数据 选择 (Data Selection) 数据 预 处 理 (Data 
Preprocessing) 和 数据 转换 (Data Transformation ) 。 

数据 选择 的 目的 是 确定 发 现任 务 的 操作 对 象 , 即 目标 数据 (Target Data) ,是 根据 用 户 
的 需要 从 原始 数据 库 中 选取 的 一 组 数据 。 数 据 预 处 理 一 般 包括 消除 噪声 .推导 或 计算 缺 值 
数据 、 消 除 重复 记录 等 。 数 据 转换 的 主要 目的 是 完成 数据 类 型 转换 (如 把 连续 值 数 据 转换 为 
离散 型 数据 ,以 便于 符号 归纳 ,或 是 把 离散 型 数据 转换 为 连续 值 型 数据 ,以 便于 神经 网 络 计 
算 ) ,尽量 消减 数据 维 数 或 降 维 (Dimension Reduction) , 即 从 初始 属性 中 找 出 真正 有 用 的 属 
性 以 减少 数据 挖掘 时 要 考虑 的 属性 的 个 数 。 
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2. 数据 挖掘 


数据 挖掘 是 利用 一 系列 方法 或 算法 从 数据 中 获取 知识 。 按 照 数 据 控 掘 任务 的 不 同 , 数 
据 挖 掘 方法 分 为 聚 类 、 分 类 .关联 规则 发 现 等 。 聚 类 方法 是 在 没有 类 别 的 数据 中 , 按 “ 距 离 ” 
的 远近 聚集 成 若干 类 别 ,典型 的 方法 有 K-means 聚 类 方法 。 分 类 方法 是 对 有 类 别 的 数据 ， 
找 出 各 类 别 的 描述 知识 ,典型 的 方法 有 ID3、C4. 5、IBLE 等 分 类 方法 。 关 联 规则 发 现 是 对 多 
个 数据 项 重复 出 现 的 概率 ,超过 指定 的 阔 值 时 ,建立 这 些 数据 项 之 间 的 关联 规则 ,典型 的 方 
法 有 Agrawal 提出 的 关联 规则 挖掘 方法 等 。 

利用 数据 挖掘 方法 获得 的 知识 ,是 对 这 些 数据 的 高 度 浓缩 。 


3. 结果 的 解释 和 评价 


数据 挖掘 阶段 获取 的 模式 ,经 过 评价 ,可 能 存在 元 余 或 无 关 的 模式 ,这 时 需要 将 其 剔除 ; 
也 有 可 能 模式 不 满足 用 户 要 求 , 这 时 则 需要 回 退 到 发 现 过 程 的 前 面 阶段 ,如 重新 选取 数据 、 
采用 新 的 数据 变换 方法 . 设 定 新 的 参数 值 , 甚 至 换 一 种 挖掘 算法 等 。 另 外 ,KDD 由 于 最 终 是 
面向 人 类 用 户 的 ,因此 可 能 要 对 发 现 的 模式 进行 可 视 化 ,或 者 把 结果 转换 为 用 户 易 懂 的 另 一 
种 表示 ,如 把 分 类 决策 树 转换 为 f…then… 规 则 。 

数据 挖掘 仅仅 是 整个 过 程 中 的 一 个 步骤。 数据 挖掘 质量 的 好 坏 有 两 个 影响 要 素 : 一 是 所 
采用 的 数据 挖掘 技术 的 有 效 性 ,二 是 用 于 挖掘 的 数据 的 质量 和 数量 (数据 量 的 大 小 )。 如 果 选 
择 了 错误 的 数据 或 不 适当 的 属性 ,或 对 数据 进行 了 不 适当 的 转换 , 则 挖掘 的 结果 是 不 会 好 的 。 

整个 挖掘 过 程 是 一 个 不 断 反馈 的 过 程 。 比 如 ,用 户 在 挖掘 途中 发 现 选 择 的 数据 不 太 好 ， 
或 使 用 的 挖掘 技术 产生 不 了 期 望 的 结果 。 这 时 ,用 户 需 要 重复 先前 的 过 程 ,甚至 从 头 重新 
开始 。 

可 视 化 技术 在 数据 挖掘 的 各 个 阶段 都 扮演 着 重要 的 角色 。 特 别 是 在 数据 准备 阶段 ,用 
户 可 能 要 使 用 散 点 图 .直方 图 等 统计 可 视 化 技术 来 显示 有 关 数 据 , 以 期 对 数据 有 一 个 初步 的 
了 解 ,从 而 为 更 好 地 选取 数据 打下 基础 。 在 数据 挖掘 阶段 ,用 户 则 要 使 用 与 领域 问题 有 关 的 
可 视 化 工具 。 在 表示 结果 阶段 , 则 可 能 要 用 到 可 视 化 技术 ,以 使 得 发 现 的 知识 更 易于 理解 。 


6.1.2 数据 挖掘 对 象 


数据 挖掘 的 对 象 主要 是 关系 数据 库 和 数据 仓库 ,这 是 典型 的 结构 化 数据 。 随 着 技术 的 
发 展 ,数据 挖掘 对 象 逐步 扩大 到 半 结 构 化 或 非 结 构 化 数据 ,这 主要 是 文本 数据 、 图 像 和 视频 
数据 以 及 Web 数据 等 。 


1. 关系 数据 库 


目前 ,建立 的 数据 库 都 是 关系 数据 库 ,数据 仓库 的 数据 存储 仍然 是 关系 数据 库 。 数 据 挖 
气 方 法 也 主要 是 研究 数据 库 中 属性 之 间 的 关系 ,挖掘 出 多 个 属性 取 值 之 间 的 规则 。 由 于 关 
系数 据 库 的 特点 ,促使 了 数据 挖掘 方法 的 改善 。 数 据 库 的 特点 如 下 。 
(1) 数据 动态 性 
数据 的 动态 变化 是 数据 库 的 一 个 主要 特点 。 由 于 数据 的 存 取 和 修改 ,使 数据 的 内 容 经 
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常 发 生变 化 ,这 就 要 求 数据 控 掘 方法 能 适应 这 种 变化 。 渐 增 式 数 据 挖掘 方法 就 是 针对 数据 
变化 后 ,挖掘 的 规则 知识 能 满足 变化 后 的 数据 库 内 容 。 

(2) 数据 不 完全 性 

这 主要 反映 在 数据 库 中 记录 的 域 值 丢失 或 不 存在 ( 空 值 ) 。 这 种 不 完全 数据 给 数据 挖掘 
带 来 了 困难 。 为 此 ,必须 对 数据 进行 预 处 理 ,填补 该 数据 域 的 可 能 值 。 

(3) 数据 噪声 

由 于 数据 录入 等 原因 ,造成 错误 的 数据 , 即 数据 噪声 。 挖 掘 含 噪声 的 数据 会 影响 获取 模 
式 的 准确 性 ,并 增加 了 数据 挖掘 的 困难 度 。 

在 数据 挖掘 中 要 考虑 噪声 的 影响 ,利用 概率 方法 排除 这 些 噪 声 。 

(4) 数据 宛 余 性 

这 表现 为 同一 信息 在 多 处 重复 出 现 。 函 数 依 赖 是 一 个 通常 的 宛 余 形式 。 宛 余 信 息 可 能 
造成 错误 的 数据 挖掘 ,至 少 有 些 挖掘 的 知识 是 用 户 不 感 兴趣 的 。 为 避免 这 种 情况 的 发 生 , 数 
据 挖 掘 时 ,需要 知道 数据 库 中 有 哪些 固有 的 依赖 关系 。 

(5) 数据 稀 玻 性 

这 表现 为 多 维 数据 空间 中 存在 大 量 稀 玻 数据 , 稀 玻 数据 会 使 数据 挖掘 丢失 有 用 的 模式 。 

(6) 海量 数据 

数据 仓库 中 数据 在 不 断 增 长 ,已 出 现 很 多 海量 数据 仓库 。 数 据 挖掘 方法 需要 逐步 适应 
这 种 海量 数据 和 迅速 增长 的 数据 ,如 建立 有 效 的 索引 机 制 和 快速 查询 方法 等 。 


2. 文本 


文本 是 以 文字 串 形式 表示 的 数据 文件 。 文 本 分 析 包括 关键 词 或 特征 提取 ;相似 检索 ; 文 
本 聚 类 和 文本 分 类 等 。 

(1) 关键 词 或 特征 提取 

一 篇 文本 中 ,标题 是 该 文本 的 高 度 概括 。 标 题 中 的 关键 词 是 标题 的 核心 内 容 。 关 键 字 
的 提取 对 于 掌握 该 文本 的 内 容 至 关 重 要 。 

文本 中 的 特征 如 人 名 、 地 名 .组 织 名 等 是 某 些 文本 中 的 主体 信息 ,特征 提取 对 掌握 该 文 
本 的 内 容 很 重要 。 

(2) 相似 检索 

文本 中 的 关键 词 的 相似 检索 是 了 解 文本 内 容 的 一 种 重要 方法 。 例 如 “专家 系统 ”与 “人 
工 智能 ?两 个 关键 词 是 有 一 定 联系 的 。 研 究 专家 系统 的 文本 ,一 定 属 于 人 工 智 能 的 研究 

(3) 文本 聚 类 

文本 聚 类 是 对 大 量 文本 在 没有 类 别 的 情况 下 ,利用 聚 类 算法 聚 成 多 个 类 别 。 对 于 文本 
标题 中 关键 词 (主题 字 ) 的 相似 匹配 是 对 文本 聚 类 的 一 种 简单 方法 。 定 义 关 键 词 的 相似 度 ， 
将 便利 文本 的 简单 聚 类 ,使 类 中 的 文本 均 满 足 关 键 词 的 相似 度 ,使 不 同类 之 间 的 文本 的 关键 
词 一 定 超过 相似 度 。 

(4) 文本 分 类 

文本 分 类 是 在 已 经 知道 各 文本 的 类 别 的 情况 下 ,通过 分 类 算法 获取 对 各 已 知 类 别 的 特 
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征 描述 知识 (分 类 知识 ) 。 利 用 分 类 知识 ,可 以 对 于 一 个 新 的 文本 区 分 出 它 属 于 哪个 类 。 
3. 图 像 与 视频 数据 


图 像 和 视频 数据 是 典型 多 媒体 数据 。 数 据 以 点 阵 信息 及 帧 形式 存储 ,数据 量 很 大 。 图 
像 与 视频 的 数据 挖掘 包括 图 像 与 视频 特征 提取 、 基 于 内 容 的 相似 检索 .视频 镜头 的 编辑 与 组 
织 等 。 

(1) 图 像 与 视频 特征 提取 

图 像 与 视频 数据 特征 有 颜色 纹理 和 形状 等 。 这 些 特征 提取 用 于 基于 内 容 的 相似 检索 。 
海水 蓝 色 ,海滩 黄色 房屋 的 形状 及 颜色 ,需要 从 大 量 图 像 和 视频 数据 中 提取 。 

(2) 基于 内 容 的 相似 检索 

根据 图 像 .视频 特征 的 分 布 .比例 等 进行 基于 内 容 的 相似 检索 ,可 以 对 图 像 和 视频 数据 
进行 聚 类 以 及 分 类 ,也 能 完成 对 新 图 像 或 视频 的 识别 。 如 对 遥感 图 像 或 视频 的 识别 ,这 种 应 
用 非常 广泛 ,例如 森林 火灾 的 发 现 与 报警 .河流 水 灾 的 预报 等 。 

(3) 视频 镜头 的 编辑 与 组 织 

镜头 代表 一 段 连续 动作 (视频 数据 流 ) 。 典 型 的 镜头 编辑 如 足球 赛 的 射门 . 某 段 新 闻 节 
目 等 ,需要 在 元 长 的 视频 数据 流 中 进行 自动 裁 取 。 

经 过 编辑 的 镜头 , 按 某 种 需要 重新 组 织 ,将 形成 特定 需求 的 新 视频 节目 ,如 足球 射门 集 
锦 、 某 个 新 闻 事件 的 连续 报道 等 。 


4. Web 数据 


随 着 Internet 的 发 展 和 普及 、 网 站 数目 的 迅速 增长 以 及 入 网 人 员 的 剧烈 增多 ,网 络 数据 
量 呈 指数 增长 。Web 数据 挖掘 已 成 为 新 课题 。Web 数据 挖掘 的 特点 如 下 。 

(1) 异 构 数 据 集成 和 挖掘 

Web 上 每 一 个 站 点 是 一 个 数据 源 , 各 数据 源 都 是 异 构 的 ,形成 了 一 个 巨大 的 异 构 数据 
库 环境 。 只 有 将 这 些 站 点 的 异 构 数 据 进行 集成 ,给 用 户 提供 一 个 统一 的 视图 ,才能 在 Web 
上 进行 数据 挖掘 。 

(2) 半 结 构 化 数据 模型 抽取 

Web 上 的 数据 非常 复杂 ,没有 特定 的 模型 描述 。 虽然 每 个 站 点 上 的 数据 是 结构 化 的 ， 
但 各 自 的 设计 对 整个 网 络 是 一 个 非 完全 结构 化 的 数据 , 称 为 半 结 构 化 数据 。 

对 半 结 构 化 数据 模型 的 查询 和 集成 ,需要 寻找 一 种 半 结 构 化 模型 抽取 技术 来 自动 抽取 
各 站 点 的 数据 。 

XML 是 一 种 半 结 构 化 的 数据 模型 ,易于 实现 Web 中 信息 共享 与 交换 。 

采用 “实时 建议 "技术, 能够 根据 用 户 以 往 的 浏览 行为 来 预测 该 用 户 以 后 的 浏览 行为 ,从 
而 为 用 户 提供 个 性 化 的 浏览 建议 。 

总 之 , Web 数据 挖掘 正在 逐步 成 为 热点 。 


6.1.3 数据 挖掘 任务 


数据 挖掘 任务 有 六 项 : 关联 分 析 、` 时 序 模式 、 聚 类 、 分 类 、 偏 差 检 测 .预测 。 
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1. 关联 分 析 


关联 分 析 是 从 数据 库 中 发 现 知识 的 一 类 重要 方法 。 若 两 个 或 多 个 数据 项 的 取 值 之 间 重 
复出 现 且 概率 很 高 时 , 它 就 存在 某 种 关联 ,可 以 建立 起 这 些 数据 项 的 关联 规则 。 

例如 , 买 面包 的 顾客 有 90% 的 人 还 买 牛 奶 ,这 是 一 条 关联 规则 。 若 商店 中 将 面包 和 和 牛 
奶 放 在 一 起 销售 ,将 会 提高 它们 的 销量 。 

在 大 型 数据 库 中 ,这 种 关联 规则 是 很 多 的 ,需要 进行 第 先 ,一般 用 “支持 度 ” 和 “可 信和 度 ” 
两 个 阔 值 来 淘汰 那些 无 用 的 关联 规则 。 

“支持 度 ” 表 示 该 规则 所 代表 的 事例 (元 组 ) 占 全 部 事例 (元 组 ) 的 百分比 ,如 既 买 面包 又 
买 牛奶 的 顾客 占 全 部 顾客 的 百分比 。 

“可 信和 度 ” 表 示 该 规则 所 代表 事例 占 满足 前 提 条 件 事例 的 百分比 ,如 既 买 面包 又 买 牛奶 
的 顾客 占 买 面包 顾客 中 的 90% , 称 可 信和 度 为 90%% 。 


2. 时 序 模式 


通过 时 间 序 列 搜索 出 重复 发 生 概率 较 高 的 模式 。 这 里 强调 时 间 序 列 的 影响 。 例 如 ,在 
所 有 购买 了 激光 打印 机 的 人 中 ,半年 后 60% 的 人 再 购买 新 硒鼓 ,40% 的 人 用 旧 硒 鼓 装 碳 粉 ; 
在 所 有 购买 了 彩色 电视 机 的 人 中 ,有 60% 的 人 再 购买 DVD 产品 。 

在 时 序 模式 中 ,需要 找 出 在 某 个 最 小 时 间 内 出 现 比率 一 直 高 于 某 一 最 小 百分比 ( 阔 值 ) 
的 规则 。 这 些 规则 会 随 着 形式 的 变化 做 适当 的 调整 。 

时 序 模式 中 ,一 个 有 重要 影响 的 方法 是 相似 时 序 ”。 用 “相似 时 序 ” 的 方法 ,要 按时 间 顺 
序 查看 时 间 事 件数 据 库 ,从 中 找 出 另 一 个 或 多 个 相似 的 时 序 事件 。 例 如 在 零售 市 场 上 ,找到 
另 一 个 有 相似 销售 的 部 门 ,在 股市 中 找到 有 相似 波动 的 股票 。 


3. 聚 类 


数据 库 中 的 数据 可 以 划分 为 一 系列 有 意义 的 子 集 , 即 类 。 简 单 地 说 ,在 没有 类 的 数据 
中 , 按 * 距 离 ” 的 远近 聚集 成 若干 类 。 在 同一 类 别 中 ,个 体 之 间 的 距离 较 小 ,而 不 同类 别 上 的 
个 体 之 间 的 距离 偏 大 。 聚 类 增强 了 人 们 对 客观 现实 的 认识 , 即 通过 聚 类 建立 宏观 概念 。 例 
如 将 鸡 . 鸭 、 忽 等 都 聚 类 为 家 禽 。 

聚 类 方法 包括 统计 分 析 方 法 、 机 器 学 习 方法 、 神 经 网 络 方法 等 。 

在 统计 分 析 方法 中 , 聚 类 分 析 是 基于 距离 的 聚 类 ,如 欧 氏 距离 , 海 明 距 离 等 。 这 种 聚 类 
分 析 方 法 是 一 种 基于 全 局 比较 的 聚 类 , 它 需要 考察 所 有 的 个 体 才 能 决定 类 的 划分 。 

在 机 器 学 习 方 法 中 , 聚 类 是 无 导师 的 学 习 。 在 这 里 距离 是 根据 概念 的 描述 来 确定 的 , 故 
聚 类 也 称 概 念 聚 类 , 当 聚 类 对 象 动态 增加 时 ,概念 聚 类 则 称谓 概念 形成 。 

在 神经 网 络 中 , 自 组 织 神经 网 络 方法 用 于 聚 类 ,如 ART 模型 Kohonen 模型 等 ,这 是 一 
种 无 监督 学 习 方法 。 当 给 定 距离 阔 值 后 ,各 样本 按 阔 值 进行 聚 类 。 


4. 分 类 


分 类 是 数据 挖掘 中 应 用 的 最 多 的 任务 。 分 类 是 在 聚 类 的 基础 上 ,对 已 确定 的 类 找 出 该 
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类 别 的 描述 知识 , 它 代表 了 这 类 数据 的 整体 信息 , 即 该 类 的 内 涵 描 述 ,一 般 用 规则 或 决策 树 
模式 表示 。 该 模式 能 把 数据 库 中 的 各 元 组 影射 到 给 定 类 别 中 的 某 一 个 。 

一 个 类 的 内 涵 描 述 分 为 特征 描述 和 辨别 性 描述 。 

特征 描述 是 对 类 中 对 象 的 共同 特征 的 描述 。 辨 别 性 描述 是 对 两 个 或 多 个 类 之 间 的 区 别 
的 描述 。 特 征 描述 允许 不 同类 中 具有 共同 特征 。 而 辨别 性 描述 对 不 同类 不 能 有 相同 特征 。 
辨别 性 描述 用 得 更 多 。 

分 类 是 利用 训练 样本 集 ( 已 知 数据 库 元 组 和 类 别 所 组 成 的 样本 ) 通 过 有 关 算 法 而 求 
得 的 。 

建立 分 类 决策 树 的 方法 ,典型 的 有 ID3、C4. 5、IBLE 等 方法 。 建 立 分 类 规则 的 方法 , 典 
型 的 有 AQ 方法 .粗糙 集 方法 .遗传 分 类 器 等 。 

目前 ,分 类 方法 的 研究 成 果 较 多 ,判别 方法 的 好 坏 , 可 从 三 个 方面 进行 : 预测 准确 度 
(对 非 样 本 数据 的 判别 准确 度 ); 加 计算 复杂 度 (方法 实现 时 对 时 间 和 空间 的 复杂 度 ); 名模 
式 的 简洁 度 ( 在 同样 效果 的 情况 下 ,和 希望 决策 树 小 或 规则 少 ) 。 

在 数据 库 中 ,往往 存在 噪声 数据 (错误 数据 )、 缺 损 值 . 朴 密 不 均匀 等 问题 。 它 们 对 分 类 
算法 获取 的 知识 将 产生 坏 的 影响 。 


5. 偏差 检测 


数据 库 中 的 数据 存在 很 多 异常 情况 ,从 数据 分 析 中 发 现 这 些 异 常情 况 也 是 很 重要 的 ,以 
便 引 起 人 们 对 它 更 多 的 注意 。 

偏差 包括 很 多 有 用 的 知识 ,如 : 

(1) 分 类 中 的 反常 实例 ; 

(2) 模式 的 例外 ; 

(3) 观察 结果 对 模型 预测 的 偏差 ; 

(4) 量 值 随时 间 的 变化 。 

偏差 检测 的 基本 方法 是 寻找 观察 结果 与 参照 之 间 的 差别 。 观 察 常常 是 某 一 个 域 的 值 或 
多 个 域 值 的 汇总 。 参 照 是 给 定 模型 的 预测 ,外 界 提供 的 标准 或 男 一 个 观察 。 


6. 预测 


预测 是 利用 历史 数据 找 出 变化 规律 ,建立 模型 ,并 用 此 模型 来 预测 未 来 数据 的 种 类 、 特 
征 等 。 
典型 的 方法 是 回归 分 析 , 即 利用 大 量 的 历史 数据 ,以 时 间 为 变量 建立 线性 或 非 线性 回归 
方程 。 预 测 时 ,只 要 输入 任意 的 时 间 值 ,通过 回归 方程 即 可 求 出 该 时 间 的 预测 值 。 

近年 来 发 展 起 来 的 神经 网 络 方法 ,如 BP 模型 , 它 实 现 了 非 线性 样本 的 学 习 , 能 进行 非 
线性 函数 的 判别 。 

分 类 也 能 进行 预测 ,但 分 类 一 般 用 于 离散 数值 ;回归 预测 用 于 连续 数值 ;神经 网 络 方法 
预测 既 可 用 于 连续 数值 ,也 可 用 于 离散 数值 。 
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6.1.4 数据 挖掘 分 类 


数据 挖掘 涉及 多 个 学 科 ,主要 包括 数据 库 、 统 计 学 和 机 器 学 习 三 大 主要 技术 。 

数据 库 技术 经 过 20 世纪 80 年 代 的 大 发 展 , 除 关系 数据 库 外 ,又 陆续 出 现 面向 对 象 数据 
库 .多 媒体 数据 库 、 分 布 式 数据 库 以 及 Web 数据 库 等 。 数 据 库 的 应 用 由 一 般 查 询 到 模糊 查 
询 和 智能 查询 ,数据 库 计 算 已 趋向 并 行 计算 。 从 以 上 各 类 数据 库 中 挖掘 知识 正在 兴起 并 已 
得 到 迅速 发 展 。 

统计 学 是 一 门 古老 的 学 科 , 现 已 逐渐 走向 社会 。 它 已 成 为 社会 调查 .了 解 民 意 以 及 制定 
决策 的 重要 手段 。 

机 器 学 习 是 人 工 智能 的 重要 分 支 。 它 是 在 专家 系统 获取 知识 出 现 困难 后 发 展 起 来 的 。 
机 器 学 习 的 大 部 分 方法 和 技术 已 演变 为 数据 挖掘 方法 和 技术 。 

数据 挖掘 可 按 数据 库 类 型 .挖掘 对 象 .挖掘 任务 .挖掘 方法 与 技术 ,以 及 应 用 等 几 方面 进 
行 分 类 。 


1. 按 数据 库 类 型 分 类 


数据 挖掘 主要 是 在 关系 数据 库 中 挖掘 知识 。 随 数据 库 类 型 的 不 断 增加 ,逐步 出 现 了 不 
同 数据 库 的 数据 挖掘 , 现 有 关系 数据 挖掘 模糊 数据 挖掘 ,历史 数据 挖掘 ,空间 数据 挖掘 等 多 
种 不 同 数据 库 的 数据 挖掘 类 型 。 


2. 按 数据 挖掘 对 象 分 类 


数据 挖掘 除 对 数据 库 这 个 主要 对 象 进行 挖掘 外 ,还 有 文本 数据 挖掘 .多 媒体 数据 挖掘 、 
Web 数据 挖掘 。 由 于 对 象 不 同 ,挖掘 的 方法 相差 很 大 ,文本 、 多 媒体 .Web 数据 均 是 非 结构 
化 数据 ,挖掘 的 难度 将 很 大 。 

目前 ,Web 数据 挖掘 已 逐步 引起 人 们 的 关注 。 


3. 按 数据 挖掘 任务 分 类 


数据 挖掘 的 任务 有 关联 分 析 、 时 序 模式 、 聚 类 、 分 类 、 偏 差 检 测 、 预 测 等 。 按 任务 分 类 有 
关联 规则 挖掘 、 序 列 模式 挖掘 、 聚 类 数据 挖掘 、 分 类 数据 挖掘 、 偏 差分 析 挖掘 和 预测 数据 挖掘 
等 类 型 。 

各 类 数据 挖掘 由 于 任务 不 同 , 将 会 采用 不 同 的 数据 挖掘 方法 和 技术 。 


4. 按 数据 挖掘 方法 和 技术 分 类 


数据 挖掘 方法 和 技术 较 多 ,在 下 一 节 中 将 详细 讨论 。 在 此 对 其 分 类 进行 说 明 。 
(1) 归纳 学 习 类 
该 类 又 分 为 基于 信息 论 方法 挖掘 类 和 基于 集合 论 方法 挖掘 类 。 基 于 信息 论 方法 是 在 数 
据 库 中 寻找 信息 量 大 的 属性 来 建立 属性 的 决策 树 。 基 于 集合 论 方法 是 对 数据 库 中 各 属性 的 
元 组 集合 之 间 关 系 ( 上 、 下 近似 关系 ,覆盖 或 排斥 关系 ,包含 关系 等 ) 来 建立 属性 间 的 规则 。 
各 类 中 又 包括 多 种 方法 ,主要 用 于 分 类 问题 。 
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(2) 仿生 物 技 术 类 

该 类 又 分 为 神经 网 络 方法 类 和 遗传 算法 类 。 神 经 网 络 方法 是 在 模拟 人 脑 神经 元 而 建立 
的 MP 数学 模型 和 Hebb 学 习 规 则 的 基础 上 ,提出 了 一 系列 的 算法 模型 ,用 于 识别 .预测 、 联 
想 、 优 化 、 聚 类 等 实际 问题 。 遗 传 算法 是 模拟 生物 遗传 过 程 ,对 选择 、 交 又 、 变 异 过 程 建立 了 
数学 算 子 ,主要 用 于 问题 的 优化 和 规则 的 生成 。 

(3) 公式 发 现 类 

在 科学 实验 与 工程 数据 库 中 ,用 人 工 智能 方法 寻找 和 发 现 连续 属性 (变量 ) 之 间 关 系 , 建 
立 变量 之 间 公 式 , 已 引起 人 们 的 关注 ,该 类 中 有 多 种 数据 挖掘 方法 ,如 BACON 和 FDD 等 。 

(4) 统计 分 析 类 

统计 分 析 是 一 门 独立 的 学 科 , 由 于 能 对 数据 库 中 数据 求 出 各 种 不 同 的 统计 信息 和 知识 ， 
因此 它 也 构成 了 数据 挖掘 中 的 一 大 类 方法 。 

(5) 模糊 数学 类 

模糊 数学 是 反映 人 们 思维 的 一 种 方式 。 将 模糊 数学 应 用 于 数据 挖掘 各 项 任务 中 ,形成 
了 模糊 数据 挖掘 类 ,如 模糊 聚 类 .模糊 分 类 .模糊 关联 规则 等 。 

(6) 可 视 化 技术 类 

可 视 化 技术 是 一 种 图 形 显示 技术 。 对 数据 的 分 布 规律 进行 可 视 化 显示 或 对 数据 挖掘 过 
程 进行 可 视 化 显示 ,会 明显 提高 人 们 对 数据 挖掘 的 理解 和 挖掘 效果 。 该 技术 已 形成 了 可 视 
化 数据 挖掘 类 的 多 种 方法 。 

本 书 的 内 容 将 按 数据 挖掘 的 方法 和 技术 分 类 的 各 种 方法 进行 详细 和 深入 的 介绍 ,以 便 
读者 学 习 和 使 用 这 些 方法 和 技术 ,对 实际 问题 完成 数据 挖掘 任务 。 


6.1.5 不 完全 数据 处 理 


对 不 完全 数据 (Incomplete Data) 的 处 理 是 知识 发 现 过 程 中 数据 预 处 理 的 主要 内 容 。 在 
现实 领域 中 ,人 们 所 拥有 的 数据 常常 是 不 完全 的 。 在 这 种 情况 下 ,知识 发 现 应 该 具有 处 理 这 
种 不 完全 数据 并 提供 相应 合理 的 近似 结果 的 能 力 。 

现实 世界 的 数据 库 ( 例 如 商业 数据 库 和 医院 数据 库 ) 中 的 数据 很 少 是 完全 的 : 丢失 的 数 
据 、 观 察 不 到 的 数据 ,隐藏 的 数据 、 录 入 过 程 中 发 生 错 误 的 数据 等 在 现实 中 是 经 常 发 生 的 。 
在 知识 发 现 领域 中 对 不 完全 数据 的 研究 比较 多 的 在 于 丢失 的 数据 。 

例如 ,在 对 个 人 调查 时 ,被 调查 的 对 象 可 能 会 拒绝 提供 他 的 收入 情况 ,在 一 项 实验 过 程 
中 , 某 些 结果 可 能 会 因为 某 些 故障 而 丢失 ,这 些 情况 都 会 产生 数据 丢失 。 

关于 两 个 变量 X 和 YY 的 采样 。 其 中 X 是 独立 变量 ,总 有 观测 值 ;Y 是 响应 变量 ,可 能 
涉及 丢失 值 。 以 Y= 二 ?代表 丢失 值 ,以 (X=i,Y= 二 =?) 代表 不 完全 的 记录 。 由 这 种 简单 的 两 
个 变量 模型 ,可 以 推广 到 更 一 般 的 情况 , 即 一 个 不 含 丢失 值 的 变量 的 集合 总 是 影响 着 可 能 具 
有 丢失 值 的 另 一 个 变量 。 这 种 情况 在 统计 学 、` 机 器 学 习 、 数 据 控 掘 和 知识 发 现 领域 里 是 相当 
常见 的 。 

丢失 数据 模式 分 类 取决 于 Y= 二? 的 概率 是 否 依赖 于 Y 与 X 的 状态 。 如 果 这 一 概率 依 
赖 于 X 但 不 依赖 于 立 , 则 认为 数据 是 随机 丢失 的 (Missing at Random) ;如 果 Y=? 的 概率 
既 不 依赖 于 Y 也 不 依赖 于 X 的 状态 , 则 认为 数据 是 完全 随机 丢失 的 (Missing Completely at 
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Random) 。 对 于 数据 随机 丢失 和 数据 完全 随机 丢失 两 种 情况 ,如 果 数 据 挖掘 方法 都 不 受 影 
响 ,那么 丢失 数据 的 模式 是 可 以 忽略 的 。 但 当 Y 一 ? 的 概率 既 依赖 于 Y 又 依赖 于 X 时 , 则 
丢失 数据 的 模式 就 是 不 可 忽略 的 。 

处 理 丢 失 数 据 的 方法 有 以 下 几 种 。 


1. 基于 已 知 数据 的 方法 


忽略 掉 丢 失 的 数据 而 只 对 得 到 的 数据 进行 挖掘 和 分 析 。 这 种 方法 最 为 简单 ,在 数据 量 
不 太 大 且 数 据 是 完全 随机 丢失 的 情况 下 可 以 得 到 令 人 满意 的 结果 。 但 是 如 果 数 据 不 是 随机 
丢失 的 ,这 种 方法 就 不 是 很 有 效 , 会 导致 严重 的 偏差 ,这 时 可 以 采用 删除 有 丢失 数据 的 属性 
方法 。 


2. 基于 猜测 的 方法 


首先 猜测 被 丢失 的 值 ,从 而 得 到 完全 的 数据 ,然后 再 运用 标准 的 统计 学 和 机 器 学 习 的 方 
法 进行 数据 挖掘 和 分 析 。 具 体 方法 有 : 

(1) 均值 蔡 换 法 : 用 含有 丢失 值 的 属性 的 已 知 值 的 平均 值 来 代替 丢失 的 值 。 

(2) 概率 统计 法 。 先 求 丢 失 值 的 所 在 属性 的 各 取 值 的 出 现 概率 P(wt), 即 表示 属性 a 
的 取 值 v; 出 现 的 概率 。 丢失 值 用 出 现 最 大 概率 的 值 "来 代替 。 

(3) 回归 猜测 。 采 用 回归 分 析 的 方法 ,用 未 丢失 的 数据 建立 回归 方程 ,用 所 依赖 的 变量 
X 求 出 该 丢失 值 了 。 

3. 基于 模型 的 方法 


对 于 丢失 值 构造 出 一 个 适当 的 模型 ( 非 回归 模型 ), 然 后 在 此 模型 下 采用 恰当 的 方法 猜 
测 丢失 的 值 ,这 是 一 种 较为 灵活 的 方法 。 


4. 基于 贝 叶 斯 理论 的 方法 
利用 无 教师 指导 的 贝 叶 斯 分 类 技术 和 贝 叶 斯 网 络 处 理 丢失 的 数据 。 
5. 基于 决策 树 的 方法 


利用 决策 树 和 规则 归纳 的 技术 来 处 理 丢 失 的 数据 。 
以 上 主要 讨论 了 对 不 完全 数据 的 处 理 。 另 外 ,对 未 知 的 数据 隐藏 的 数据 .错误 的 数据 
等 以 及 这 些 数据 和 已 知 数据 的 关系 ,目前 研究 较 少 ,还 需要 深入 研究 。 


6.1.6 数据 库 的 数据 浓缩 


数据 浓缩 就 是 在 满足 某 种 等 价 条 件 下 ,将 复杂 的 难以 理解 的 数据 库 , 变 换 成 简洁 的 、 容 
易 理 解 的 高 度 浓缩 的 数据 库 。 
数据 浓缩 包括 两 方面 : 四 属性 约 简 ; @ 元 组 (记录 ) 压 缩 。 


1. 属性 约 简 


属性 约 简 一 般 用 于 分 类 问题 。 属 性 约 简 的 原则 是 保持 数据 库 中 分 类 关系 不 变 。 目 前 ， 
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属性 约 简 一 般 采 用 粗糙 集 (Rough Set) 方 法 ,也 可 以 采用 信息 论 方法 。 

在 数据 库 (S) 的 分 类 问题 中 ,属性 分 为 条 件 属 性 (C) 和 决策 属性 (D)。 属 性 约 简 是 在 条 
件 属性 中 删除 那些 不 影响 对 决策 属性 进行 分 类 的 多 余 的 属性 。 经 过 研究 对 条 件 属性 一 般 分 
为 可 省 略 属 性 和 不 可 省 略 属性 。 不 可 省 略 属性 实质 是 对 决策 属性 进行 分 类 的 核心 属性 
(Core(S))。 而 可 省 略 属性 (Choice(S)) 并 不 是 全 部 都 可 省 略 的 属性 ,需要 在 可 省 略 属性 中 
挑选 出 部 分 属性 与 核心 属性 组 合成 等 价 原 数据 库 的 分 类 效果 。 

例如 ,有 如 下 汽车 数据 库 CCTR), 有 9 个 条 件 属性 ,1 个 决策 属性 (里 程 ), 如 表 6. 1 
所 示 。 


表 6.1 汽车 数据 库 (CTR) 


序号 类 型 和 涡轮 式 燃料 排 气量 压缩 率 | 功率 换 挡 垩 下 里 程 
a c d e f g h i D 

小 型 6 法 1 型 中 高 高 自动 中 中 
小 型 6 N 1 型 中 中 高 手动 中 中 
3 小 型 6 N 1 型 中 高 高 手动 中 中 
4 小 型 4 下 1 型 中 高 高 手动 轻 高 
5 小 型 6 N 1 型 中 中 中 手动 中 中 
6 小 型 6 N 2 型 中 中 中 自动 重 低 
多 小 型 6 N 1 型 中 中 高 手动 重 低 
8 微型 4 N 2 型 小 高 低 手动 轻 高 
9 小 型 4 N 2 型 小 高 低 手动 中 中 
0 | 小 型 4 N 2 型 小 高 中 自动 哩 中 
1 微型 4 N 1 型 小 高 低 手动 轻 高 
2 | 微型 4 N 1 型 中 中 中 手动 中 高 
3 | 小 型 4 N 2 型 中 中 中 手动 中 中 
4 | 微型 4 1 型 小 高 高 手动 纠 高 
5 | 微型 4 N 2 型 小 中 低 手动 中 高 
6 | 小 型 4 双 1 型 中 中 高 手动 纠 中 
7 | 小 型 6 N 1 型 中 中 高 自动 ’ ’ 
8 | 小 型 4 N 1 型 中 中 高 自动 * hs 
9 | 微型 4 N 1 型 小 高 中 手动 中 高 
20 | 小 型 4 N 1 型 小 高 中 手动 中 高 
21 | 小 型 4 N 2 型 小 高 中 手动 中 Mh 


经 过 分 析 , 可 以 得 到 : 
Corse(S) 二 {燃料 ,重量 },Choice(S) 二 {类 型 涡轮 式 、 汽 氏 、 排 气量 .压缩 率 ,功率 、 换 
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挡 } 

保持 数据 库 (S) 分 类 关系 不 变 的 7 个 属性 约 简 : 

(1) { 类 型 ,燃料 , 排 气量 ,重量 }4 个 属性 ; 

(2) { 燃 料 , 排 气量 ,压缩 率 , 重 量 }4 个 属性 ; 

(3) { 类 型 , 汽 年 ,燃料 ,压缩 率 , 重 量 }5 个 属性 ; 

(4) {类 型 ,燃料 ,压缩 率 , 功 率 , 重 量 )5 个 属性 ; 

(5) {类 型 , 汽 生 ,燃料 ,功率 ,重量 }5 个 属性 ; 

(6) {汽缸 ,燃料 ,压缩 率 , 功 率 ,重量 }5 个 属性 ; 

(7) {类 型 , 汽 氏 ,涡轮 式 , 燃 料 , 换 挡 ,重量 )6 个 属性 。 

以 上 7 种 属性 约 简 都 等 价 于 原 数 据 库 中 9 个 属性 的 决策 分 类 。 

其 中 最 小 属性 约 简 是 (1) 和 (2) ,用 4 个 属性 就 可 以 代替 数据 库 中 9 个 属性 。 利 用 最 小 
属性 约 简 (2) ,经 过 进一步 处 理 , 可 以 得 到 原 数 据 库 的 等 价 数据 库 , 如 表 6.2 所 示 。 


表 6.2 约 简 后 的 数据 库 


燃料 排 气量 压缩 率 重量 里 程 
1 这 x x 重 低 
2， 本 关 x 轻 六 
3 x 小 中 x 高 
4 x 中 * 中 中 
可 1 型 小 高 x 高 
6” 2 型 x 高 中 中 


说 明 :“* "表示 可 不 考虑 该 属性 的 取 值 。 


2. 元 组 (记录 ) 压 缩 


元 组 (记录 ) 压 缩 实质 上 是 对 数据 库 的 元 组 (记录 ) 进 行 合并 、 归 并 和 聚 类 等 。 

(1) 相同 元 组 (记录 ) 的 合并 

在 进行 属性 约 简 后 ,会 出 现 很 多 相同 的 元 组 ,这 样 就 可 以 合并 这 些 相 同 的 元 组 。 

(2) 利用 概念 树 进行 归并 

概念 树 是 一 种 对 概念 的 层次 进行 划分 的 树 。 概 念 树 与 数据 库 中 特定 的 属性 有 关 , 它 将 
各 个 层次 的 概念 按 从 一 般 到 特殊 的 顺序 排列 。 在 概念 树 中 最 一 般 的 概念 作为 树 的 根 结 点 ; 
最 特殊 的 概念 作为 叶 结 点 , 它 对 应 数据 库 具 体 属性 值 。 例 如 ,反映 某 数据 库 中 “籍贯 "这 个 属 
性 的 概念 树 如 图 6. 2 所 示 。 

利用 概念 树 进行 向 上 归纳 ,可 以 实现 数据 库 元 组 归并 。 例 如 ,对 数据 库 中 “籍贯 ”为 广 
州 深圳、 东莞 ,佛山 等 城市 的 所 有 学 生 的 记录 都 归并 为 广东 省 , 即 放 在 “籍贯 = 广东 省 ”的 新 
记录 中 ,这 样 就 完成 了 广东 省 内 学 生 的 多 个 元 组 (记录 ) 都 归并 到 一 个 元 组 (记录 ) 中 ,实现 了 
元 组 (记录 ) 的 压缩 。 对 学 生 数 据 库 这 种 元 组 压缩 有 利于 学 校对 各 省 学 生 的 生活 习惯 有 概括 
的 了 解 , 便 利 了 学 校对 他 们 的 管理 。 
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广州 深圳 东莞 佛山 长 沙 岳阳 株洲 
图 6.2 “籍贯 "概念 树 


(3) 对 元 组 的 聚 类 

为 了 对 数据 库 中 所 有 元 组 (记录 ) 有 一 个 概括 的 了 解 ,在 元 组 之 间 设 定 一 种 距离 方法 (如 
海 明 距 离 ), 对 数据 库 中 所 有 元 组 进行 聚 类 。 这 种 聚 类 能 完成 对 同一 类 的 多 个 元 组 进行 聚 
集 ,形成 一 个 类 元 组 。 数 据 库 按 类 元 组 重新 组 织 , 就 完成 了 原 数据 库 元 组 高 度 压 缩 的 新 数 
据 库 。 


6.2 数据 挖掘 方法 和 技术 


数据 挖掘 方法 依据 的 基本 原理 主要 有 : 中 信息 论 ,主要 是 计算 数据 库 中 属性 的 信息 量 ， 
如 ID3、IBLE 等 方法 ; @ 集 合 论 ,利用 集合 之 间 的 覆盖 关系 (如 粗糙 集 方法 .覆盖 正 例 排斥 
反例 的 AQ11 方法 ) ,或 计算 数据 项 在 整个 集合 中 所 占 的 比例 (如 关联 规则 挖掘 方法 );，@@ 仿 
生物 技术 ,把 生物 体 的 运转 过 程 转换 成 数学 模型 ,再 用 数学 模型 去 解决 现实 世界 的 非 生物 问 
题 , 如 神经 网 络 .遗传 算法 等 ; 四 人 工 智 能 技术 ,主要 是 利用 启发 式 搜 索 方 法 ,如 公式 发 现 的 
BACOM FDD 等 方法 ; @ 可 视 化 技术 ,主要 是 利用 图 形 显示 技术 。 

数据 挖掘 方法 和 技术 可 以 分 为 六 大 类 。 


6.2.1 归纳 学 习 的 信息 论 方法 


归纳 学 习 方法 是 目前 重点 研究 的 方向 ,研究 成 果 较 多 。 从 采用 的 技术 上 看 ,分 为 两 大 
类 : 信息 论 方法 (这 也 是 常 说 的 决策 树 方法 ) 和 集合 论 方法 。 每 类 方法 又 包含 多 个 具体 
方法 。 

信息 论 方法 是 利用 信息 论 的 原理 建立 决策 树 。 由 于 该 方法 最 后 获得 的 知识 表示 形式 是 
决策 树 , 因 此 一 般 文献 中 称 它 为 决策 树 方 法 。 该 类 方法 的 实用 效果 好 ,影响 较 大 。 

信息 论 方法 中 较 有 特色 的 方法 有 以 下 几 种 。 


1. ID3 等 方法 (决策 树 方法 ) 


Quiulan 研制 的 ID3 方法 是 利用 信息 论 中 互信 息 (Quiulan 称 为 信息 增益 ) 寻 找 数据 库 

中 具有 最 大 信息 量 的 字段 ,建立 决策 树 的 一 个 结 点 ,再 根据 字段 的 不 同 取 值 建立 树 的 分 支 ， 

再 由 每 个 分 支 的 数据 子 集 重复 建树 的 下 层 结 点 和 分 支 的 过 程 , 这 样 就 建立 了 决策 树 。 这 种 

方法 对 数据 库 愈 大 这 种 方法 效果 愈 好 。ID3 方法 在 国际 上 影响 很 大 。ID3 方法 以 后 又 陆续 
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开发 了 ID4 .ID5、.C4. 5 等 方法 。 
2. IBLE 方法 (决策 规则 树 方法 ) 


钟鸣 . 陈 文 伟 研制 了 IBLE 方法 ,是 利用 信息 论 中 信道 容量 ,寻找 数据 库 中 信息 量 从 大 
到 小 的 多 个 字段 的 取 值 建立 决策 规则 树 的 一 个 结 点 ,根据 该 结 点 中 指定 字段 取 值 的 权 值 之 
和 与 两 个 阔 值 比较 ,建立 左 、. 中 , 右 三 个 分 支 , 在 各 分 支 子 集中 重复 建树 结 点 和 分 支 的 过 程 ， 
这 就 建立 了 决策 规则 树 。IBLE 方法 比 ID3 方法 在 识别 率 上 提高 了 10 个 百分点 。 以 后 又 研 
制 了 IBLE-R 方法 。 


6.2.2 归纳 学 习 的 集合 论 方法 


合 论 方法 是 开展 较 早 的 方法 。 近 年 来 ,粗糙 集 理论 的 发 展 使 集合 论 方法 得 到 了 迅速 
的 发 展 。 这 类 方法 中 包括 覆盖 正 例 排斥 反例 的 方法 (典型 的 方法 是 AQ 系列 方法 )、 概 念 树 
方法 和 粗糙 集 (Rough Set) 方 法 。 关 联 规则 挖掘 方法 也 属于 集合 论 方法 。 


1. 粗糙 集 (Rough Set) 方 法 


在 数据 库 中 将 行 元 素 看 成 对 象 , 列 元 素 是 属性 (分 为 条 件 属性 和 决策 属性 ) 。 等 价 关 
系 尺 定义 为 不 同 对 象 在 某 个 (或 几 个 ) 属 性 上 取 值 相同 ,这 些 满足 等 价 关 系 的 对 象 组 成 的 
集合 称 为 该 等 价 关 系 R 的 等 价 类 。 条 件 属性 上 的 等 价 类 与 决策 属性 上 的 等 价 类 Y 之 
间 有 三 种 情况 : 下 近似 ; Y 包含 EF; @ 上 近似 :了 Y 和 下 的 交 非 空 ; @ 无 关 :; Y 入 的 交 
为 空 。 对 下 近似 建立 确定 性 规则 ,对 上 近似 建立 不 确定 性 规则 ( 含 可 信和 度 ) ,无 关 情 况 不 
存在 规则 。 


2. 关联 规则 挖掘 


关联 规则 挖掘 是 在 交易 事务 数据 库 中 ,挖掘 出 不 同 项 (商品 ) 集 的 关联 关系 , 即 发 现 哪些 
商品 频繁 地 被 顾客 同时 购买 。 

关联 规则 挖掘 是 在 事务 数据 库 D 中 寻找 那些 不 同 项 集 ( 如 含 A 和 B 两 个 商品 ) 同 时 出 
现 的 概率 ( 即 P(AB)) 大 于 最 小 支持 度 (min_sup), 且 在 包含 一 个 项 集 ( 如 A) 的 所 有 事务 中 ， 
又 包含 另 一 个 项 集 ( 如 B) 的 条 件 概 率 ( 即 P(B1A)) 大 于 最 小 可 信和 度 (min_conf) 时 , 则 存在 
关联 规则 ( 即 A 一 B)。 


3. 覆盖 正 例 排斥 反例 方法 


它 是 利用 覆盖 所 有 正 例 ,排斥 所 有 反例 的 思想 来 寻找 规则 。 比 较 典 型 的 有 Michalski 
的 AQ11 方 法、 洪 家 荣 改进 的 AQ15 方法 以 及 洪 家 荣 的 AE5 方法 。 

AQ 系列 的 核心 算法 是 在 正 例 集中 任 选 一 个 种 子 , 它 到 反例 集中 逐个 比较 ,对 字段 取 值 
构成 的 选择 子 相 容 则 舍 去 , 相 斥 则 保留 。 按 此 思想 循环 所 有 正 例 种 子 ,将 得 到 正 例 集 的 规则 
(选择 子 的 合 取 式 ) 。 

AE 系列 方法 是 在 扩张 矩阵 中 寻找 覆盖 正 例 排斥 反例 的 字段 值 的 公共 路 (规则 )。 
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4. 概念 树 方法 


数据 库 中 记录 的 属性 字段 按 归 类 方式 进行 合并 ,建立 起 来 的 层次 结构 称 为 概念 树 。 例 
如 对 “城市 ”概念 树 的 最 下 层 是 具体 市 名 或 县 名 (如 长 沙 、 南 京 等 ), 它 的 直接 上 层 是 省 名 ( 湖 
南 、 江 苏 等 ) ,省 名 的 直接 上 层 是 国家 行政 区 (华南 .华东 等 ), 再 上层 是 国名 (中 国 、 日 本 等 ) 。 

利用 概念 树 提升 的 方法 可 以 大 大 浓缩 数据 库 中 的 记录 (元 组 )。 对 多 个 属性 字段 的 概念 
树 提升 ,将 得 到 高 度 概括 的 知识 基 表 ,然后 再 将 它 转 换 成 规则 。 


6.2.3 仿生 物 技 术 的 神经 网 络 方法 


仿生 物 技术 典型 的 方法 是 神经 网 络 方法 和 遗传 算法 。 这 两 类 方法 已 经 形成 了 独立 的 研 
究 体 系 。 它 们 在 数据 挖掘 中 也 发 挥 了 巨大 的 作用 ,可 以 将 它们 归并 为 仿生 物 技 术 类 。 

神经 网 络 方法 模拟 了 人 脑 神经 元 结构 ,是 以 MP 数学 模型 和 Hebb 学 习 规则 为 基础 的 ， 
建立 了 三 大 类 多 种 神经 网 络 模型 。 

1. 前 馈 式 网 络 


它 以 感知 机 、BP 反 向 传播 模型 .函数 型 网 络 为 代表 。 此 类 网 络 可 用 于 预测 .模式 识别 等 
方面 。 


2. 反馈 式 网 络 
它 以 Hopfield 的 离散 模型 和 连续 模型 为 代表 ,分 别 用 于 联想 记忆 和 优化 计算 。 
3. 自 组 织 网 络 


它 以 ART 模型 ,Kohonen 模型 为 代表 ,用 于 聚 类 。 
神经 网 络 的 知识 体现 在 网 络 连接 的 权 值 上 ,是 一 个 分 布 式 矩 阵 结构 。 神 经 网 络 的 学 习 
体现 在 神经 网 络 权 值 的 逐步 计算 上 (包括 反复 迭代 或 累加 计算 )。 


6.2.4 仿生 物 技术 的 遗传 算法 
这 是 模拟 生物 进化 过 程 的 算法 。 它 由 三 个 基本 算 子 组 成 : 
1. 繁殖 (选择 ) 
从 一 个 旧 种 群 ( 父 代 ) 选 择 出 生命 力 强 的 个 体 产 生 新 种 群 (后 代 ) 的 过 程 。 
2. 交叉 (重组 ) 
选择 两 个 不 同 个 体 (染色 体 ) 的 部 分 (基因 ) 进 行 交 换 ,形成 两 个 新 个 体 。 
3. 变异 (突变 ) 


对 某 些 个 体 的 某 些 基因 进行 变异 (1 变 0,0 变 1) ,形成 新 个 体 。 
这 种 遗传 算法 起 到 产生 优良 后 代 的 作用 。 这 些 后 代 需 要 满足 适应 值 ,经 过 若干 代 的 遗 
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传 ,将 得 到 满足 要 求 的 后 代 ( 问 题 的 解 ) 。 遗 传 算法 已 在 优化 计算 和 分 类 机 器 学 习 方面 发 挥 
了 显著 的 效果 。 


6.2.5 数值 数据 的 公式 发 现 


在 工程 和 科学 数据 库 (由 实验 数据 组 成 ) 中 ,利用 人 工 智 能 启发 式 搜索 方法 (反复 试验 )， 
对 若干 数据 项 (变量 ) 进 行 一 定 的 数学 运算 ,可 求 得 相应 的 数学 公式 。 


1. 物理 定律 发 现 系 统 BACON 


BACON 发 现 系 统 完成 了 物理 学 中 大 量 定律 的 重新 发 现 。 它 的 基本 思想 是 对 数据 项 
反复 进行 初等 数学 运算 (加 、 减 、 乘 、 除 等 ) 形 成 的 组 合 数据 项 , 若 它 的 值 为 常数 (启发 式 )， 
就 得 到 了 组 合 数据 项 等 于 常数 的 公式 。 该 系统 有 5 个 版 本 ,分 别 为 BACON.1 到 
BACON. 5。 


2. 经 验 公 式 发 现 系统 FDD 


陈 文 伟 等 人 研制 了 FDD 发 现 系 统 。 基 本 思想 是 对 两 个 数据 项 交替 取 初 等 函数 后 与 另 
一 数据 项 的 线性 组 合 ,反复 进行 不 同 的 初等 函数 试验 , 当 线 性 组 合 为 直线 时 (启发 式 ) ,就 找 
到 了 数据 项 (变量 ) 的 初等 函数 的 线性 组 合 公 式 。 该 系统 所 发 现 的 公式 比 BACON 系统 发 现 
的 公式 更 宽 些 。 该 系统 有 3 个 版 本 ,分 别 为 FDD. 1 到 FDD. 3。 


6.2.6 可 视 化 技术 


可 视 化 技术 是 一 种 图 形 显示 技术 。 例 如 ,把 数据 库 中 多 维 数据 变 成 多 种 图 形 , 这 对 于 揭 
示 数 据 中 内 在 本 质 以 及 分 布 规律 起 到 很 强 的 作用 。 对 数据 挖掘 过 程 可 视 化 ,并 进行 人 机 交 
互 可 提高 数据 挖掘 的 效果 。 

数据 可 视 化 是 创建 二 维 或 三 维 业务 数据 集 的 图 表 , 使 得 用 户 用 于 理解 业务 数据 ,从 而 提 
升 知识 和 洞察 力 。 例 如 ,多 维 数据 的 多 维 结构 类 型 (MTS) 图 与 多 维 表 格 是 对 多 维 数据 可 视 
化 的 显示 。 利 用 直方 图 (二 维 ) , 柱 形 图 (三 维 ) 、 饼 图 、 折 线 图 、 雷 达 图 、 散 点 图 等 能 更 形象 地 
表示 数据 之 间 对 比 与 变化 的 关系 。 

可 视 化 数据 挖掘 是 创建 可 视 化 的 数据 挖掘 模型 ,利用 这 些 模 型 发 现 业务 数据 集中 存在 
的 模式 ,从 而 辅助 决策 支持 及 预测 新 的 商机 。 

可 视 化 技术 的 基本 工作 如 下 。 


1. 提取 几何 图 元 


这 是 可 视 化 系统 的 主要 部 分 ,由 不 同类 型 的 数据 (点 . 线 ) 构 造成 表面 或 体 素 模型 。 它 是 
构造 仿真 ,分 析 数 据 分 布 模型 的 有 效 手段 。 


2. 绘制 


这 是 利用 计算 机 图 形 学 中 的 成 果 , 包 括 图 像 生成 、 消 隐 、 光 照 效 应 及 绘制 等 步 又。 
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3. 显示 和 演 放 


为 了 取得 有 效 的 显示 效果 ,这 一 步骤 将 提供 图 片 组 合 .文件 标准 、 着 色 .旋转 ` 放 大、 存储 
等 功能 。 

可 视 化 绘制 (render) 方 法 就 是 把 隐藏 于 大 容量 数据 集中 的 物理 信息 转化 为 有 组 织 结构 
表示 的 视觉 信号 集合 ,如 空间 几何 形状 颜色、 亮度 等 。 目 前 常用 的 可 视 化 绘制 方法 有 几何 
法 .彩色 法 、 多 媒体 法 和 光学 法 。 


6.3 数据 挖掘 的 知识 表示 
数据 挖掘 各 种 方法 获得 的 知识 的 表示 形式 ,主要 有 六 种 : 规则 \ 决 策 树 、 知 识 基 ( 浓 缩 数 
据 )、 网 络 权 值 .公式 和 案例 。 


6.3.1 规则 知识 


规则 知识 由 前 提 条 件 和 结论 两 部 分 组 成 。 前 提 条 件 由 字段 项 (属性 ) 的 取 值 的 合 取 (与 
和 A) 和 析 取 (或 V ) 组 合 而 成 ,结论 为 决策 字段 项 (属性 ) 的 取 值 或 者 类 别 组 成 。 


下 面 用 一 个 简单 例子 进行 说 明 , 如 两 类 人 数据 库 的 9 个 元 组 (记录 ) 如 表 6. 3 所 示 。 
表 6.3 两 类 人 数据 库 

身高 头发 眼睛 身高 头发 眼睛 

铸 金色 蓝 色 高 金色 黑色 

第 高 红色 蓝 色 第 四 黑色 蓝 色 

网 高 金色 蓝 色 高 黑色 蓝 色 

大 斤 金色 灰色 大 高 黑色 灰色 

四 金色 黑色 


利用 上 面 介绍 的 数据 挖掘 方法 ,将 能 很 快 得 到 如 下 规则 知识 : 


焉 发 色 = 金色 V 红色 ) 信 雪 睛 = 蓝 色 V 灰 色 )THN 第 一 类 人 

焉 发 色 = 黑色 )V 人 眼 睛 = 黑色 )THN 第 二 类 人 

即 凡是 具有 金色 或 红色 的 头发 ,并 且 同 时 具有 蓝 色 或 灰色 眼睛 的 人 属于 第 一 类 人 ;凡是 
具有 黑色 头发 或 黑色 眼睛 的 人 属于 第 二 类 人 。 


6.3.2 决策 树 知 识 


数据 挖掘 的 信息 论 方法 所 获得 的 知识 一 般 表示 为 决策 树 。 
如 ID3 方法 的 决策 树 是 由 信息 量 最 大 的 字段 (属性 ) 作 为 根 结 点 , 它 的 各 个 取 值 为 分 支 ， 
对 各 个 分 支 所 划分 的 数据 元 组 (记录 ) 子 集 ,重复 建树 过 程 ,扩展 决策 树 , 最 后 得 到 相同 类 别 
的 子 集 , 以 该 类 别 作为 叶 结 点 。 
.131 ， 


例如 : 上 例 的 两 类 人 数据 库 , 按 ID3 方法 得 到 的 决策 树 如 图 6. 3 所 示 。 


关 委 
红 一 ”入 人 于 
| 
第 一 类 人 眼睛 第 二 类 人 
2 


第 一 类 人 第 一 类 人 | 第 二 类 人 


6.3.3 知识 基 ( 浓 缩 数 据 ) 


在 知识 发 现 过 程 的 数据 准备 中 ,数据 转换 的 一 项 属性 约 简 工作 就 是 找 出 可 省 略 的 属性 。 
在 删除 不 必要 的 属性 后 ,对 数据 库 中 出 现 的 相同 的 元 组 (记录 ) 进 行 合 并 。 这 样 ,通过 属性 约 
简 方 法 能 压缩 数据 库 的 属性 和 相应 的 元 组 ,最 后 得 到 浓缩 数据 , 称 为 知识 基 。 它 是 原 数据 库 
的 精华 ,很 容易 转换 成 规则 知识 。 

例如 上 例 中 两 类 人 的 数据 库 , 通 过 属性 约 简 计算 可 以 得 出 身高 是 不 必要 的 属性 ,删除 它 
后 ,再 合并 相同 数据 元 组 ,得 到 浓缩 数据 如 表 6. 4 所 示 。 


表 6.4 知识 基 ( 浓 缩 数 据 ) 


头发 眼睛 头发 眼睛 
1 类 人 金色 蓝 色 2 类 人 金色 黑色 
1 类 人 红色 蓝 色 2 类 人 黑色 蓝 色 
1 类 人 金色 灰色 2 类 人 黑色 灰色 


6.3.4 神经 网 络 权 值 


神经 网 络 方法 经 过 对 训练 样本 的 学 习 后 ,所 得 到 的 知识 是 网 络 连接 权 值 和 结 点 的 阔 值 ， 
一 般 表 示 为 矩阵 和 向 量 。 例 如 , 异 或 问题 的 网 络 权 值 和 阔 值 如 图 6. 4 所 示 。 
输入 层 网 络 权 值 : 


Eee 
Wal Ng AN 1 
隐 结 点 国 值 : 
( 9 ) 的 ) 
@) \l5 
输入 层 网 络 权 值 : 


(7,7) = (1,D) 


输出 结 点 阔 值 : 
入 0. 


Xl 如 


图 6.4 神经 网 络 结构 和 权 值 
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6.3.5 公式 知识 
对 于 科学 和 工程 数据 库 ,一般 存放 的 是 大 量 实验 数据 (数值 )。 它 们 中 蕴涵 着 一 定 的 规 
律 性 ,通过 公式 发 现 算法 ,可 以 找 出 各 种 变量 间 的 相互 关系 ,并 用 公式 表示 。 
例如 ,太阳 系 行星 运动 数据 中 包含 行星 运动 周期 (旋转 一 周 所 需 时 间 , 天 ) ,以 及 它 与 太 
阳 的 距离 (围绕 太阳 旋转 的 椭圆 轨道 的 长 半 轴 , 百 万 公里 ) ,数据 如 表 6. 5 所 示 。 
表 6.5 太阳 系 行星 数据 


水 星 金星 地 球 火星 木星 土星 
周期 P 88 225 365 687 4343.5 10767.5 
距离 d 58 108 149 228 778 1430 


通过 物理 定律 发 现 系统 BACON 和 经 验 公 式 发 现 系 统 FDD 均 可 以 得 到 开 普 勒 第 三 
定律 : 
di/p’ = 25 


6.3.6 案例 


案例 是 人 们 经 历 过 的 一 次 完整 的 事件 。 当 人 们 为 解决 一 个 新 间 题 时 ,总 是 先 回顾 自己 
以 前 处 理 过 的 类 似 事件 (案例 ) 。 将 以 前 案例 中 解决 问题 的 方法 或 者 处 理 的 结果 作为 参考 并 
进行 适当 的 修改 ,以 解决 当前 新 间 题 。 利 用 这 种 思想 建立 起 基于 案例 推理 (CBR, Case 
Based Reasoning)。CBR 的 基础 是 案例 库 ,在 案例 库 中 存放 大 量 成 功 或 失败 的 案例 。CBR 
利用 相似 检索 技术 ,对 新 问题 到 案例 库 中 搜索 相似 案例 ,再 经 过 对 旧 案 例 的 修改 来 解决 新 
问题 。 

可 见 , 案 例 是 解决 新 问题 的 一 种 知识 。 案 例 知识 一 般 表示 为 三 元 组 : 

< 问题 描述 , 解 描 述 , 效果 描述 > 


， 问题 描述 : 对 求解 问题 及 周围 世界 或 环境 的 所 有 特征 的 描述 ; 
。 解 描述 : 对 间 题 求解 方案 的 描述 ; 
。 效 果 描 述 : 描述 解决 方案 后 的 结果 情况 ,是 失败 还 是 成 功 。 


习 题 6 


. 数据 挖掘 与 知识 发 现 两 个 概念 有 什么 不 同 ? 

. 知识 发 现 过 程 由 哪 三 部 分 组 成 ”每 部 分 的 工作 是 什么 ? 
. 数据 挖掘 的 对 象 有 哪些 ? 它们 各 自 的 特点 是 什么 ? 

. 数据 挖掘 的 任务 有 哪些 ? 每 项 任务 的 含义 是 什么 ? 

聚 类 与 分 类 有 什么 不 同 ? 

. 如 何 产生 不 完全 数据 ? 

. 数据 是 随机 丢失 的 概念 是 什么 ? 
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8. 数据 是 完全 随机 丢失 的 概念 是 什么 ? 
9. 哪 种 丢失 数据 的 模式 是 可 以 忽略 的 ? 


10. 
得。 
12. 
13. 
14. 
15. 
16. 
17. 
18. 
L9, 
20. 
2 
22. 
23, 
24. 
25. 
26. 


哪 种 丢失 数据 的 模式 是 不 可 以 忽略 的 ? 

处 理 丢 失 数 据 的 方法 有 哪些 ? 

数据 浓缩 包括 哪 两 个 方面 ? 

属性 约 简 的 原则 是 什么 ? 

属性 约 简 一 般 采 用 哪些 方法 ? 

元 组 压缩 有 哪 几 种 ? 

如 何 利 用 概念 树 进行 元 组 的 压缩 ? 

ID3 方法 建立 决策 树 的 基本 思想 是 什么 ? 
“信息 增益 ”是 “互信 息 ” 吗 ? 

粗糙 集 方 法 如 何 获得 规则 ? 

神经 网 络 方法 有 哪 几 类 ? 

遗传 算法 的 三 个 算 子 是 什么 ? 

公式 发 现 中 的 BACON 方法 与 FDD 方法 的 基本 思想 是 什么 ? 
数据 挖掘 的 知识 表示 有 了 哪些? 

规则 知识 与 决策 树 知 识 和 知识 基 是 等 价 的 吗 ? 

人 类 社会 的 知识 表示 是 什么 ? 它 与 计算 机 中 的 知识 表示 有 什么 不 同 ? 
为 什么 要 研究 计算 机 中 的 知识 表示 ? 
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7 童 信息论 方法 


信息 论 原理 是 数据 挖掘 的 理论 基础 之 一 。 一 般 用 于 分 类 问题 , 即 从 大 量 数 据 中 获取 分 
类 知识 。 具 体 来 说 ,就 是 在 已 知 各 实例 的 类 别 的 数据 中 , 找 出 确定 类 别 的 关键 的 条 件 属性 。 
求 关键 属性 的 方法 , 即 先 计算 各 条 件 属性 的 信息 量 , 再 从 中 选 出 信息 量 最 大 的 属性 ,信息 量 
的 计算 是 利用 信息 论 原理 中 的 公式 。 获 取 的 分 类 知识 表示 形式 为 : 

(1) 决策 树 , 如 ID3、.C4. 5 方法 ,是 把 信息 量 最 大 的 属性 作为 树 或 子 树 的 根 结 点 ,属性 的 
取 值 作为 分 支 。 

(2) 决策 规则 树 ,如 IBLE 方法 ,是 把 信息 量 大 的 多 个 属性 作为 树 或 子 树 的 结 点 ,多 个 
属性 的 权 值 和 与 闷 值 比较 大 小 来 产生 分 支 。 


站 


7.1 信息 论 原理 


信息 论 是 C. E. Shannon 为 解决 信息 传递 (通信 ) 过 程 问题 而 建立 的 理论 ,也 称 为 统计 通 
信 理 论 。 一 个 传递 信息 的 系统 是 由 发 送 端 ( 信 源 ) 和 接收 端 ( 信 宿 ) 以 及 连接 两 者 的 通道 ( 信 
道 ) 三 者 组 成 。 信 息 论 把 通信 过 程 看 做 是 在 随机 干扰 的 环境 中 传递 信息 的 过 程 。 在 这 个 通 
信 模 型 中 ,信息 源 和 干扰 (噪声 ) 都 被 理解 为 某 种 随机 过 程 或 随机 序列 。 因 此 ,在 进行 实际 的 
通信 之 前 , 收 信者 ( 信 宿 ) 不 可 能 确切 了 解 信 源 究竟 会 发 出 什么 样 的 具体 信息 ,不 可 能 判断 信 
源 会 处 于 什么 样 的 状态 。 这 种 情形 就 称 为 信 宿 对 于 信 源 状态 具有 不 确定 性 。 而 且 这 种 不 确 
定性 是 存在 于 通信 之 前 的 ,因而 又 叫做 先 验 不 确定 性 。 

在 进行 了 通信 之 后 , 信 宿 收 到 了 信 源 发 来 的 信息 ,这 种 先 验 不 确定 性 才 会 被 消除 或 者 被 
减少 。 如 果 干 扰 很 小 ,不 会 对 传递 的 信息 产生 任何 可 察觉 的 影响 , 信 源 发 出 的 信息 能 够 被 信 
宿 全 部 收 到 ,在 这 种 情况 下 , 信 宿 的 先 验 不 确定 性 就 会 被 完全 消除 。 但 是 ,在 一 般 情 况 下 , 干 
扰 总 会 对 信 源 发 出 的 信息 造成 某 种 破坏 ,使 信 宿 收 到 的 信息 不 完全 。 因 此 , 先 验 不 确定 性 不 
能 全 部 被 消除 ,只 能 部 分 地 消除 。 换 句 话 说 ,通信 结束 之 后 , 信 宿 还 仍然 具有 一 定 程度 的 不 
确定 性 。 这 就 是 后 验 不 确定 性 。 显 然 ,后 验 不 确定 性 总 要 小 于 先 验 不 确定 性 ,不 可 能 大 于 先 
验 不 确定 性 。 

(1) 如 果 后 验 不 确定 性 的 大 小 正好 等 于 先 验 不 确定 性 的 大 小 ,这 就 表示 信 宿 根本 没有 
收 到 信息 。 

(2) 如 果 后 验 不 确定 性 的 大 小 等 于 零 ,这 就 表示 信 宿 收 到 了 全 部 信息 。 

可 见 ,信息 是 用 来 消除 (随机 ) 不 确定 性 的 度量 。 信 息 量 的 大 小 ,由 所 消除 的 不 确定 性 的 
大 小 来 计量 。 
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7.1.1 信道 模型 和 学 习 信 道 模型 
1. 信道 模型 


信息 论 的 信道 模型 如 图 7. 1 所 示 。 信 源 发 出 的 符号 /sy 消 认 
U 取 值 为 ,ws，…,u, 信 和 宿 接收 的 符号 V 取 值 为 ws,vo， 局 ee r 


Us Us os Uy TD U2, eV. 


条 件 概率 PCV1U) , 称 为 信道 的 传输 概率 或 转移 概率 ， Vd 
它 反映 信道 的 输入 与 输出 的 关系 ,用 矩阵 来 表示 称 为 转移 I 
概率 矩阵 。 


Pw/iw) Pov/iw) … Plv,/i) 
ov) Fe ee) 一 ne/ ey 
Pw /au,) Pv/u,) Plw/u) 

其 中 ， DSP /au) = 1 i= ly097s 


转移 概率 P(u /us ) 表 示 收 到 信息 w 后 判定 输入 为 ww 的 概率 。 

信道 的 数学 模型 可 用 三 元 组 (U,P(VIU) ,V) 来 表示 ,给 定 三 元 组 后 信道 就 给 定 了 。 给 
定 了 信道 ,将 要 研究 在 信 宿 收 到 符号 V 的 值 后 ,如 何 正确 判定 信 源 发 出 的 符号 U 的 是 哪 
个 值 妈 ? 


2. 学 习 信 道 模型 


学 习 信 道 模型 是 信息 模型 应 用 于 机 器 学 习 和 数据 挖掘 的 具体 化 。 学 习 信 道 模型 的 信 源 
是 实体 的 类 别 , 简 单 采用 “是 ”“ 非 ”两 类 , 令 实体 类 别 U 的 值 域 为 (wu,u},U 取 wu 表示 取 
“是 ”类 中 任 一 例子 , 取 w 表示 取 “ 非 "类 中 任 一 例子 。 信 宿 是 实体 的 特征 (属性 ) 取 值 。 实 体 
中 某 个 特征 (属性 )V, 它 的 值 域 为 {vi ,vw ，… ,vw,})。 


y - 一 般 把 实体 中 的 类 别 U 看 成 输入 ,把 某 特征 的 取 值 V 
交友 | 学 习 信道 wana 看 成 输出 ,建立 "学 习 信道 模型 ", 如 图 7. 2 所 示 。 
PU) 建立 学 习 信道 模型 后 ,就 可 以 利用 信息 论 的 信道 模型 


图 7.2 学 习 信 道 模型 原理 来 解决 归纳 学 习 和 数据 挖掘 的 问题 。 
7.1.2 信息 粹 与 条 件 粹 
1. 信 源 数学 模型 
消息 (符号 )u (i 二 1,2,…,7) 的 发 生 概率 PCw) 组 成 信 源 数学 模型 (样本 空间 和 概率 空间 ) 


wp=| a 四 | (7. 2) 
POny) Psy we BOs) 


2. 自信 息 


单个 消息 wi 发 出 前 的 不 确定 性 (随机 性 ) 称 为 自信 息 , 定 义 为 
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Tu) = log pe log Pl(u;) (C7.3) 


ui) 
以 2 为 底 , 所 得 的 信息 量 单位 为 6。 
3. 信息 炳 


信息 炉 是 自信 息 的 平均 值 (数学 期 望 )。 它 反映 了 信 源 U 中 所 有 消息 在 发 出 前 的 平均 
不 确定 性 。 定 义 为 


五 (U) = SP Clog pony Bi ; —— 2P log PGs) (7.4) 


信息 灶 五 (U) 是 信 源 U a 也 称 先 验 炳 。 

五 CU) 的 性 质 : 

(1) 五 (U)=0 时 ,说 明 只 存在 着 唯一 的 可 能 性 ,不 存在 不 确定 性 。 

(2) 如 果 种 可 能 的 发 生 都 有 相同 的 概率 , 即 所 有 的 wu 有 P(w) 二 1/n,H(U) 达 到 最 大 
值 log n, 系 统 的 不 确定 性 最 大 。 

(3) P(u;) 互 相 接 近 , 昌 (U) 就 大 。P(w;) 相 差 大 , 则 五 (U) 就 小 。 

如 果 信 道中 无 干扰 (噪声 ) ,信道 输出 符号 v 与 输入 符号 ui 一 一 对 应 ,那么 接收 到 传送 
过 来 的 符号 后 就 消除 了 对 发 送 符号 的 先 验 不 确定 性 。 


4. 后 验 精 


信 宿 当 接收 到 单个 输出 符号 V=v 后 ,对 应 输入 符号 U=w 的 后 验 概率 是 PCwi|w) ,对 
应 输入 符号 集 U 的 后 验 概率 分 布 是 P(Ulv;)。 那 么 接收 到 单个 输出 符号 V=v; 后 ,关于 U 
的 平均 不 确定 性 为 


H(U |w) = SP | olog pe fo (7.5) 


这 是 接收 到 单个 输出 符号 v; 后 关于 信 源 集 U 的 不 确定 性 , 称 为 后 验 粹 。 后 验 们 是 当 信 
道 接收 端 接收 到 单个 输出 符号 v 后 ,关于 输入 符号 U 的 信息 度量 。 


5. 条 件 炉 
后 验 焙 对 输出 符号 集 V( 所 有 符号 ) 求 平均 值 (数学 期 望 ) ,得 到 条 件 炳 : 
H(U |V)= DP) YP | vlog pe Foy (7.6) 


| 
条 件 灶 表 示 在 输出 端 收 到 全 部 符号 V 后 ， 对 于 输入 端的 全 部 符号 集 U 尚 存在 的 不 确定 
性 (信道 疑 义 度 )。 对 UU 集 存在 的 不 确定 性 是 由 于 干扰 (噪声 ) 引 起 的 。 如 果 是 一 一 对 应 信 
道 ,那么 接收 到 符号 集 V 后 ,对 UU 集 的 不 确定 性 完全 消除 , 则 信道 疑义 度 H(UIV)==0。 
从 上 面 的 分 析 可 知 : 条 件 小 于 无 条 件 炉 , 即 态 (U1V) 二 昌 (U)。 说 明 接 收 到 符号 集 V 
的 所 有 符号 后 ,关于 输入 符号 U 的 平均 不 确定 性 减少 了 , 即 总 能 消除 一 些 关 于 输入 端 U 的 
不 确定 性 ,从 而 获得 了 一 些 信息 。 


7.1.3 互信 息 与 信息 增益 


甩 (U) 代 表 接 收 到 输出 符号 集 V 以 前 关于 输入 符号 集 U 的 平均 不 确定 性 ,而 H(UIV) 
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些 不 确定 性 ,获得 了 一 定 的 信息 。 定 义 为 
ICU,V) = HU) 一 HIU TV) (人 
I(U,V) 称 为 U 和 V 之 间 的 互信 息 , 它 代表 接收 到 符号 集 V 后 获得 的 关于 U 的 信息 量 。 
可 见 , 炉 ( 昌 (U)、H(UIV)) 只 是 平均 不 确定 性 的 描述 。 人 差 (HH(U) 一 昌 (U1V)) 是 不 
确定 性 的 消除 , 即 互 信息 才 是 接收 端 所 获得 的 信息 量 。 
对 于 学 习 信 道 模 型 的 输入 端 U 只 有 ui ,wus 两 类 ,互信 息 的 计算 公式 为 


2 
四 1 
五 (U) = SP Cu)log ee (7.8) 
加 1 
HU 1V) = SP YP | vlog pe To (7.9) 
ICU,V) = HO)— HU TV) (7.10) 


当 P(wi) 或 P(ui|wv) 为 零 时 ,定义 对 数 为 零 。 
J.R. Quinlan 在 提出 ID3 方法 时 ,用 “信息 增益 ”概念 ,实际 上 是 信息 论 中 的 “互信 息 ” 
概念 。 


7.1.4 信道 容量 与 译 码 准 则 
1. 信道 容量 


给 定 信道 的 互信 息 TIU,V) 是 P(U) 的 门 型 函数 。 由 门 型 函数 的 性 质 知道 ,一 定 存 在 一 
概率 分 布 P(U) ,使 得 I(U,V) 达 到 最 大 。 这 个 最 大 的 互信 息 就 称 为 信道 容量 (Capacity) , 记 
为 C。 


诊 


C= Max{1(U,V)) C7 11y 

无 论 P(U) 如 何 变化 ,I(U,V) 总 不 会 大 于 C。 因 此 C 对 给 定 信道 是 个 常数 。 

若 以 C 作为 特征 选择 量 , 去 掉 C 小 的 特征 (信息 量 小 的 特征 ) ,选择 C 大 的 特征 (信息 量 
大 的 特征 ), 即 C 大 的 特征 对 区 分 正 反例 更 有 效 。 

互信 息 1(U,V) 的 计算 会 随 实例 个 数 的 变化 而 变化 ,而 信道 容量 C 不 会 随 实 体 个 数 的 
多 少 而 变化 ,用 C 作为 特征 的 信息 量 更 准确 。 但 是 ,C 的 计算 极为 复杂 ,一般 要 用 计算 机 做 
迭代 运算 。 


2. 译 码 准则 

信息 论 方法 需要 选择 信 逢 ,然后 根据 箱 出 判定 输入 是 什么 类 别 。 

这 里 只 研究 二 元 信道 译 码 准则 ,多 元 信道 可 以 转换 为 二 元 。 。。。 
信道 。 二 元 信道 如 图 7. 3 所 示 。 ee 

将 其 中 转移 概率 用 短 阵 去 示 为 :| ”0 |。 2 


举 一 个 简单 的 例子 , 设 有 二 元 信道 ,其 转移 概率 矩阵 为 图 7.3 二 元 信道 


ss 2 
? |2/3 1/3| 
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当 得 到 特征 值 v 时 , 若 判定 实体 的 类 别 为 wu , 则 译 对 的 可 能 性 Pi 为 1/3 , 译 错 的 可 能 
性 Pai 为 2/3。 反 之 得 到 vw 时 译 成 ws, 则 译 对 的 可 能 性 P。 为 2/3 , 译 错 的 可 能 性 Pi 为 1/3。 
可 见 译 错 的 概率 既 与 信道 的 统计 特性 有 关 又 与 译 码 准 则 有 关 。 

现在 要 定义 一 个 译 码 准则 。 设 信道 如 图 7. 3 所 示 , 定 义 译 码 准 则 就 是 要 设计 一 个 函数 
F(v;) 对 于 输出 的 每 一 个 v; 唯一 确定 输入 的 一 个 类 别 w; 与 之 对 应 ( 单 值 函数 )。 

二 元 信道 ,可 以 定义 译 码 准则 : 


F(w)=u F(v) = us 
3 号 B: 
ww 一 us 或 者 Is 一 Ul 
还 可 以 有 另外 的 定义 方法 。 


使 平均 错误 概率 最 小 的 译 码 规则 是 最 大 后 验 概率 准则 , 即 : 

后 验 概率 P(wui/wvj) 表 示 输 入 ui 发 生 以 后 ,vw 出 现 的 概率 。 用 P(u, /vj) 表 示 P(u /vj) 
3 Pl(wuz/v;) 中 某 一 个 。 

当 满 足 条 件 Plu, |v) 宇 Plui|vj) ,i 二 1,2 时 定义 译 码 函 数 F(uw)= u,。 

其 中 以 ,是 ww 和 ws 中 的 某 一 个 。 可 以 证 明 该 准则 的 平均 错误 概率 最 小 , 即 把 每 个 v 判 
成 具有 最 大 后 验 概率 PCui|w;) 的 那个 类 别 。 这 个 准则 称 为 “最 大 后 验 概率 准则 ”或 “最 小 错 
误 概率 准则 ”。 


7.2 决策 树 方法 


7.2.1 决策 树 概念 


决策 树 是 用 样本 的 属性 作为 结 点 ,用 属性 的 取 值 作为 分 支 的 树 结 构 。 它 是 利用 信息 论 
原理 对 大 量 样本 的 属性 进行 分 析 和 归纳 而 产生 的 。 决 策 树 的 根 结 点 是 所 有 样本 中 信息 量 最 
大 的 属性 。 树 的 中 间 结 点 是 该 结 点 为 根 的 子 树 所 包含 的 样本 子 集中 信息 量 最 大 的 属性 。 决 
策 树 的 叶 结 点 是 样本 的 类 别 值 。 

决策 树 用 于 对 新 样本 的 分 类 , 即 通过 决策 树 对 新 样本 属性 值 的 测试 ,从 树 的 根 结 点 开 
始 , 按 照样 本 属性 的 取 值 ,逐渐 沿 着 决策 树 向 下 ,直到 树 的 叶 结 点 ,该 叶 结 点 表示 的 类 别 就 是 
新 样本 的 类 别 。 决 策 树 方法 是 数据 挖掘 中 非常 有 效 的 分 类 方法 。 

决策 树 是 一 种 知识 表示 形式 , 它 是 对 所 有 样本 数据 的 高 度 概括 , 即 决策 树 能 准确 地 识别 
所 有 样本 的 类 别 ,也 能 有 效 地 识别 新 样本 的 类 别 。 

决策 树 概念 最 早出 现在 CLS (Concept Learning System ) 中 ,影响 最 大 的 是 J. R. 
Quinlan 于 1986 年 提出 的 ID3 方法 ,他 提出 用 信息 增益 ( 即 信息 论 中 的 互信 息 ) 来 选择 属性 
作为 决策 树 的 结 点 。 由 于 决策 树 的 建树 算法 思想 简单 ,识别 样本 效率 高 的 特点 ,使 ID3 方法 
成 为 当时 机 器 学 习 领 域 中 最 有 影响 的 方法 之 一 。 后 来 ,不 少 学 者 提出 了 改进 ID3 的 方法 , 比 
较 有 影响 的 是 ID4 ID5 方法 。J. R. Quinlan 本 人 于 1993 年 提出 了 改进 ID3 的 C4. 5 方法 ， 
C4. 5 方法 是 用 信息 增益 率 来 选择 属性 作为 决策 树 的 结 点 ,这样 建 立 的 决策 树 识 别 样本 的 效 
率 更 提高 了 。C4. 5 方法 还 增加 剪 枝 .连续 属 性 的 离散 化 .产生 规则 等 功能 。 它 使 决策 树 方 
法 再 一 次 得 到 了 提高 。 从 ID3 方法 到 C4. 5 方法 ,决策 树 的 结 点 均 由 单个 属性 构成 ,缺少 不 
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同属 性 之 间 的 关系 。 

本 书 作者 领导 的 课题 组 在 研究 信息 论 以 后 ,于 1991 年 提出 了 基于 信道 容量 的 IBLE 方 
法 和 1994 年 提出 的 基于 归 一 化 互信 息 的 IBLE-R 方法 。 此 两 方法 建立 的 是 决策 规则 树 。 
树 的 结 点 是 由 多 个 属性 组 成 的 。 这 样 ,在 树 的 结 点 中 体现 了 多 个 属性 的 相互 关系 。 由 于 信 
道 容 量 是 互信 息 的 最 大 值 , 它 不 随 样本 数 的 改变 而 改变 ,从 而 使 IBLE 方法 在 样本 识别 效率 
上 , 比 ID3 方法 提高 了 10 个 百分点 。IBLE-R 方法 在 IBLE 方法 的 基础 上 增加 了 产生 规则 
的 功能 。 
决策 树 方法 ID3 和 C4. 5 以 及 决策 规则 树 方法 IBLE 和 IBLE-R 的 理论 基础 都 是 信息 论 。 


7.2.2 ID3 方 法 基本 思 # 


J. R. Quinlan 的 ID3 方法 , 它 的 前 身 是 CLS 方法。Hunt 提出 的 CLS 的 工作 过 程 为 : 
首先 找 出 有 判别 力 的 属性 ,把 数据 分 成 多 个 子 集 , 每 个 子 集 又 选择 有 判别 力 的 属性 进行 划 
分 ,一 直 进 行 到 所 有 子 集 仅 包含 同一 类 型 的 数据 为 止 。 最 后 得 到 一 棵 决策 树 , 可 以 用 它 来 对 
新 的 样 例 进行 分 类 。CLS 的 不 足 是 没有 说 明 如 何 选择 有 判断 力 的 属性 。 

J. R. Quinlan 的 工作 主要 是 引进 了 信息 论 中 的 互信 息 ,他 将 其 称 为 信息 增益 
(information gain) ,作为 特征 (属性 ) 判 别 能 力 的 度量 ,并 且 将 建树 的 方法 嵌 在 一 个 迭代 的 
外 壳 之 中 。 

在 一 实体 世界 中 ,每 个 实体 用 多 个 特征 来 描述 。 每 个 特征 限于 在 一 个 离散 集中 取 互 斥 
的 值 。 例 如 , 设 实体 是 某 天 早晨 ,分 类 任务 是 关于 气候 的 类 型 ,特征 (属性 ) 为 : 

(1) 天 气 。 取 值 为 : 晴 , 多 云 , 雨 。 

(2) 气温 。 取 值 为 : 冷 , 适 中 , 热 。 

(3) 湿度 。 取 值 为 : 高 ,正常 。 

(4) 风 。 取 值 为 : 有 风 , 无 风 。 

每 个 实体 属于 不 同 的 类 别 ,为 简单 起 见 , 假 定 仅 有 两 个 类 别 , 分 别 为 P,N。 在 这 种 两 个 
类 别 的 归纳 任务 中 ,已 类 和 N 类 的 实体 分 别称 为 概念 的 正 例 和 反例 。 将 一 些 已 知 的 正 例 和 
反例 放 在 一 起 便 得 到 训练 集 。 

表 7.1 给 出 一 个 训练 集 。 由 归纳 学 习 算法 ID3 算法 得 出 一 棵 正确 分 类 训练 集中 每 个 实 
体 的 决策 树 ,如 图 7.4 所 示 。 该 决策 树 能 对 训练 集中 的 每 个 实体 , 按 特 征 取 值 ,判别 出 它 属 
于 PN 中 的 一 类 。 


可 


表 7.1 气候 训练 集 


属性 
序号 类 别 
天 气 气温 湿度 风 
1 晴 热 高 无 风 N 
2 晴 热 高 有 风 N 
3 多 云 热 高 无 风 下 
4 雨 适中 高 无 风 P 
5 雨 冷 正常 无 风 P 


泪 
站 


序号 ahs 类 别 
和 天气 气温 湿度 风 
6 雨 沪 正常 有 风 N 
和 多 云 冷 正常 有 风 P 
8 晴 适中 高 无 风 N 
9 晴 冷 正常 无 风 P 
10 十 适中 正 无 风 有 
11 晴 适中 正常 有 风 Pp 
12 多 云 适中 高 有 风 FE 
13 多 云 热 正常 无 风 P 
14 雨 适中 高 有 风 N 
决策 树叶 子 为 类 别名 , 即 PP 或 者 N。 其 他 结 点 由 实体 的 特征 组 成 ,每 个 特征 的 不 同 取 
值 对 应 一 个 分 支 。 若 要 对 一 个 新 实体 进行 分 类 , 需 天 
要 从 树 根 开始 进行 测试 ， 有 晴 | 二 
入 下 层 结 点 ,对 该 结 点 进行 测试 ,过 程 一 直 进行 到 叶 和 多 


结 点 ,实体 被 判 为 属于 该 叶 结 点 所 标记 的 类 别 。 现 
ae 个 例子 , 某 天 早晨 气候 描述 为 : 四 天 高 正常 『 有 风 ”无 风 
: 多 云 ; @ 气 温 : 冷 ; @ 湿 度 ; 正常; @ 风 : 无 风 。 / NN / 
它 属于 哪 类 气候 呢 ? 用 图 7.4 来 判别 ,可 以 得 出 
该 实体 的 类 别 为 尸 类。 
实际 上 ,能 正确 分 类 训练 集 的 决策 树 不 止 一 棵 。Quinlan 的 ID3 算法 能 得 出 结 点 最 少 
的 决策 树 。 


7.2.3 ID3 算法 


1. 主 算法 


(1) 从 训练 集中 随机 选择 一 个 既 含 正 例 又 含 反例 的 子 集 ( 称 为 “窗口 ”) ; 

(2) 用 “建树 算法 ”对 当前 窗口 形成 一 棵 决策 树 ; 

(3) 对 训练 集 ( 窗 口 除 外 ) 中 例子 用 所 得 决策 树 进 行 类 别 判定 , 找 出 错 判 的 例子 ; 

(4) 若 存在 错 判 的 例子 ,把 它们 插入 窗口 , 转 2, 否 则 结束 。 

主 算法 流程 用 图 7.5 表示 。 其 中 PE、NE 分 别 表示 正 例 集 和 反例 集 ,它们 共同 组 成 训 
练 集 。PE' PE" 和 NE', NE" 分 别 表 示 正 例 集 和 反例 集 的 子 集 。 

主 算法 中 每 迭代 循环 一 次 ,生成 的 决策 树 将 会 不 相同 。 
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训练 集 | | 取 子 集 窗口 
PE、 NE 建 窗口 PE'、NE' 


扩展 窗口 。 | 是 | 存在 错 判 的 |_ 否 .| 此 决策 村 为 
PE 一 PE'+ PE" 全 
Ne PE" NE" 吗 最 后 结果 


图 7.5 ID3 主 算法 流程 


2. 建树 算法 


(1) 对 当前 例子 集合 ,计算 各 特征 的 互信 息 。 

(2) 选择 互信 息 最 大 的 特征 A, .作为 树 ( 或 子 树 ) 的 根 结 点 。 

(3) 把 在 A 处 取 值 相同 的 例子 归于 同一 子 集 ,该 取 值 作为 树 的 分 支 。A 取 几 个 值 就 
得 几 个 子 集 ,各 取 值 作为 树 的 一 个 分 支 。 

(4) 对 既 含 正 例 又 会 反例 的 子 集 , 递 归 调 用 建树 算法 。 

(5) 车子 集 仅 含 正 例 或 反例 ,对 应 分 支 标 上 了 或 N ,返回 调用 处 。 


7.2.4 实例 与 讨论 
1. 实例 计算 


对 于 气候 分 类 问题 进行 具体 计算 有 : 
(1) 信息 粹 的 计算 
信息 粹 : H(U) = 一 DP Gui) logs PO) 


类 别 wi 出 现 概率 : PC(wui)==|u|/1S| 
1S| 表 示例 子 集 S 的 总 数 , |u| 表示 类 别 ui 的 例子 数 。 
对 9 个 正 例 和 5 个 反例 有 : P(u ) 王 9/14,P(Cuz ) 一 5/14 
H(U) = (9/14)log:(14/9) 十 (5/14)log:(14/5) = 0. 94bit 
(2) 条 件 炉 计算 
条 件 炉 : HCU/V) = 一 >)P(uw) PJP (ui/v)logs Pui/v;) 


属性 As 取 值 w 时 ,类 别 w 的 条 件 概率 : PG/5) 一 1/ 
Ai 一 天 气 , 它 的 取 值 有 : 办 三 晴 ,ww 一 多 云 ,ws 三 十 
在 Ai; 处 取 值 * 哺 ”的 例子 5 个 , 取 值 “多 云 "的 例子 4 个 , 取 值 * 雨 "的 例子 5 个 , 故 ; 
Pl(m)=5/14 P(v)=4/14 P(v) = 5/14 
取 值 为 “ 晴 "的 5 个 例子 中 有 2 个 正 例 .3 个 反例 , 故 ， 
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PCwy/wT 2/5s Plw/w) = 3/5 
取 值 为 “多 云 " 时 有 : P(ua /ww) 王 4/4，P(Cuy/u) 一 0 
取 值 为 “ 雨 ” 时 有 : P(wy/ws) 王 2/5，P(uz/w) 一 3/5 
HU/V) =(5/14)((2/5)log(5/2) + (3/5)log(5/3)) + (4/14)((4/4)log(4/4) 十 0) 
十 (5/14)((2/5)log(5/2) 十 (3/5)log(5/3)) = 0. 694bit 
(3) 互信 息 计 算 
对 Al 二 天 气 : 
I( 天 气 ) = H(U) 一 H(U |V) = 0.94 一 0.694 一 0.246bit 
类 似 可 得 : 
I( 气 温 ) = 0. 029bit 
I( 湿 度 ) = 0. 151bit 
T( 风 ) = 0. 048bit 
(4) 建 决策 树 的 树 根 和 分 支 
ID3 算法 将 选择 互信 息 最 大 的 特征 天气” 作为 树 根 ,在 14 个 例子 中 对 “天 气 ” 的 3 个 取 
值 进行 分 支 ,3 个 分 支 对 应 3 个 例子 的 子 集 ,例子 的 编号 分 别 是 : 
Fl={1,2859511)s Fo= {13.7712,13}, FS9= {4,5565 014} 
其 中 F2 中 的 例子 全 属于 P 类 ,因此 对 应 分 支 标 记 为 P, 其 余 两 个 子 集 既 含有 正 例 又 含有 反 
例 , 将 递归 调用 建树 算法 。 
(5) 递归 建树 
分 别 对 Fl 和 F3 子 集 利 用 ID3 算法 ,在 每 个 子 集 中 对 各 特征 ( 仍 为 四 个 特征 ) 求 互 
信息 。 
Q@ Fl 中 的 “天 气 ? 全 取 * 晴 ? 值 , 则 呈 (U) = 有 GUIV ,有 TUIV)=0, 在 余下 三 个 特征 
中 求 出 “湿度 ”互信 息 最 大 ,以 它 为 该 分 支 的 根 结 点 ,再 向 下 分 支 。“ 湿 度 ” 取 “高 ”的 例子 全 为 
N 类 ,该 分 支 标记 N。 取 值 “正常 "的 例子 全 为 P 类 ,该 分 支 标记 PP。 
@ 在 F3 中 ,对 四 个 特征 求 互 信息 ,得 到 * 风 ”特征 互信 息 最 大 , 则 以 它 为 该 分 支 根 结 点 。 
再 向 下 分 支 “ 风 ” 取 “ 有 风 ” 时 ,例子 子 集 全 为 N 类 ,该 分 支 标记 N。 取 “无 风 ” 时 ,例子 子 集 
全 为 PP 类 ,该 分 支 标记 P。 
这 样 就 得 到 图 7.4 所 示 的 决策 树 。 


2. 对 ID3 的 讨论 


《下 :优点 

ID3 在 选择 重要 特征 时 利用 了 互信 息 的 概念 ,算法 的 基础 理论 清晰 ,使 得 算法 较 简单 ， 
是 一 个 很 有 实用 价值 的 示例 学 习 算 法 。 

该 算法 的 计算 时 间 是 例子 个 数 、 特 征 个 数 、 结 点 个 数 之 积 的 线性 函数 。 钟 鸣 曾 用 4761 
个 关于 茶 的 质谱 例子 做 了 试验 。 其 中 正 例 2361 个 ,反例 2400 个 ,每 个 例子 由 500 个 特征 描 
述 ,每 个 特征 取 值 数目 为 6, 得 到 一 棵 有 1514 个 结 点 的 决策 树 。 对 正 、 反 例 各 100 个 测试 例 
作 了 测试 , 正 例 判 对 82 个 ,反例 判 对 80 个 ,总 预测 正确 率 81% ,效果 是 令 人 满意 的 。 
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(2) 缺点 

@ 互信 息 的 计算 依赖 于 特征 取 值 的 数目 较 多 的 特征 ,这样 不 太 合理 。 一 种 简单 的 办 法 
是 对 特征 进行 分 解 ,如 上 节 例 中 ,特征 取 值 数目 不 一 样 , 可 以 把 它们 统统 化 为 二 值 特征 ,如 天 
气 取 值 晴 、 多 云 . 雨 ,可 以 分 解 为 三 个 特征 ;天 气 一 睛 ,天 气 一 多 云 ,天 气 一 雨 。 取 值 都 为 "是 ” 
或 “ 否 ”, 对 气温 也 可 做 类 似 的 工作 。 这 样 就 不 存在 偏向 问题 了 。 

@ 用 互信 息 作为 特征 选择 量 存 在 一 个 假设 , 即 训练 例子 集中 (只 有 14 个 例子 ) 的 正 , 反 
例 的 比例 应 与 实际 问题 领域 里 (例子 数 会 很 大 ) 正 、 反 例 比例 相同 。 一 般 情 况 不 能 保证 相同 ， 
这 样 计算 训练 集 的 互信 息 就 有 偏差 。 

@ ID3 在 建树 时 ,每 个 结 点 仅 含 一 个 特征 ,是 一 种 单 变量 的 算法 ,特征 间 的 相关 性 强调 
不 够 。 虽然 它 将 多 个 特征 用 一 棵 树 连 在 一 起 ,但 联系 还 是 松散 的 。 

@ ID3 对 噪声 较为 敏感 。 关 于 什么 是 噪声 ,Quinlan 的 定义 是 训练 例子 中 的 错误 就 是 
噪声 。 它 包含 两 方面 ,一 是 特征 值 取 错 ,二 是 类 别 给 错 。 

@ 当 训 练 集 增 加 时 ,ID3 的 决策 树 会 随 之 变化 。 在 建树 过 程 中 ,各 特征 的 互信 息 会 随 
例子 的 增加 而 改变 ,从 而 使 决策 树 也 变化 。 这 对 渐 近 学 习 ( 即 训练 例子 不 断 增加 ) 是 不 方 
便 的 。 

总 的 来 说 ,ID3 由 于 其 理论 的 清晰 方法 简单 .学 习 能 力 较 强 , 适 于 处 理 大 规模 的 学 习 问 
题 , 在 世界 上 广 为 流 传 , 得 到 了 极 大 的 关注 ,是 数据 挖掘 和 机 器 学 习 领 域 中 的 一 个 极 好 范例 ， 
也 不 失 为 一 种 知识 获取 的 有 用 工具 。 


7.2.5 C4.5 方 法 


ID3 算法 在 数据 挖掘 中 占有 非常 重要 的 地 位 。 但 是 ,在 应 用 中 .ID3 算法 存在 不 能 够 处 
理 连续 属性 .计算 信息 增益 时 偏向 于 选择 取 值 较 多 的 属性 等 不 足 。C4. 5 是 在 ID3 的 基础 上 
发 展 起 来 的 决策 树 生成 算法 ,由 J R. Quinlan 于 1993 年 提出 。C4. 5 克服 了 ID3 在 应 用 中 
存在 的 不 足 , 主 要 体现 在 以 下 几 个 方面 ; 

(1) 用 信息 增益 率 来 选择 属性 , 它 克 服 了 用 信息 增益 选择 属性 时 偏向 选择 取 值 多 的 属 
性 的 不 足 ; 

(2) 在 树 构造 过 程 中 或 者 构造 完成 之 后 ,进行 剪 枝 ; 

(3) 能 够 完成 对 连续 属性 的 离散 化 处 理 ; 

(4) 能 够 对 于 不 完整 数据 进行 处 理 , 例 如 未 知 的 属性 值 ; 

(5) C4. 5 采用 的 知识 表示 形式 为 决策 树 ,并 最 终 可 以 形成 产生 式 规则 。 


1. 构造 决策 树 


设 丁 为 数据 集 , 类 别 集合 为 {Ci ,Cz,… ,Ci}) ,选择 一 个 属性 V 把 了 分 为 多 个 子 集 。 设 
V 有 互 不 重合 的 n 个 取 值 {如 ,veo，,… ,wv ), 则 工 被 分 为 n 个 子 集 Ti ,Ts,…,T,, 这 里 T; 中 的 
所 有 实例 的 取 值 均 为 v;。 
令 1T| 为 数据 集 工 的 例子 数 ,| 开 | 为 z 一 六 的 例子 数 ,1C; | 三 freq(C;.,T), 为 C; 类 的 例 
子 数 ,1C”| 是 V 二 vi 例子 中 ,具有 Ci 类 别 例子 数 。 
则 有 : 
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(1) 类 别 Ci 的 发 生 概 率 : p(C;)==1C;1/1T|==freq(G;,T)/1T| 

(2) 属性 V=wi 的 发 生 概率 : p(w) = |T;|/1|T| 

(3) 属性 V=w; 的 例子 中 ,具有 类 别 Ci 的 条 件 概率 : p(C;|v) ==1C?1/1Ti| 

Quinlan 在 ID3 中 使 用 信息 论 中 的 信息 增益 (gain) 来 选择 属性 ,而 C4. 5 采用 属性 的 信 
息 增益 率 (gain ratio) 来 选择 属性 。 

以 下 公式 中 的 瑟 (C) .HCC/V)、I(C,V)、H(V) 是 信息 论 中 的 写法 ,而 info(T) ,info.(T)、 
gain(V) ,plit_info(V) .gain_ratio 是 Quinlan 的 写法 。 在 此 统一 起 来 。 

(1) 类 别 的 信息 焙 

| Ci | 


二 = Zp CC Vlog (pC)) > ' 针 tog (1 


freq(C;，, 让) i 
> | 六 log» | 区 | info( T) 


(2) 类 别 条 件 人 
按照 属性 V 把 集合 了 分割 ,分 割 后 的 类 别 条 件 炳 为 


H(CI|V) = 一 pw ) pC | vi)logp(C; | v > [ > 二 llog . 


-> 和 T]| X info(T;) = info,(T) 


(3) 信息 增 间 益 (gain) , 即 互信 息 
I(C,V) = H(C)— H(C|V) = info(T) — info,(T) = gain(V) 
(4) 属性 V 的 信息 焙 
H(V) =— 2 pw)log (p(vi)) | 对 | x log: (1 - ]= split_info(V) 
(5) 信息 增益 率 
gain_ratio = I(C,V)/H(V) = gain(V) /split_info(V) 
C4.5 对 ID3 改进 是 用 信息 增益 率 来 选择 属性 。 
理论 和 实验 表明 ,采用 “信息 增益 率 ”(C4. 5 方法 ) 比 采用 “信息 增益 ”(ID3 方法 ) 更 好 ， 
主要 是 克服 了 ID3 方法 选择 偏向 取 值 多 的 属性 。 


2. 连续 属性 的 处 理 


在 ID3 中 没有 处 理 连续 属性 的 功能 。 在 C4.5 中 , 设 在 集合 工 中 ,连续 属性 A 的 取 值 为 
人 orsve ssvm)， 则 任何 在 v; 和 witi 之 间 的 任意 取 值 都 可 以 把 实例 集合 分 为 两 部 分 五 一 全 | 
A<v} 和 T,={1|A>>v;}。 

可 以 看 到 一 共有 mm 一 1 种 分 割 情 况 , 对 属性 A 的 mm 一 1 种 分 割 的 任意 一 种 情况 ,作为 该 
属性 的 两 个 离散 取 值 ,重新 构造 该 属性 的 离散 值 ,再 按照 上 述 公 式 计 算 每 种 分 割 所 对 应 的 信 
息 增 益 率 gain_ratio(u) ,在 闷 一 1 种 分 割 中 ,选择 最 大 增益 率 的 分 割 作为 属性 A 的 分 支 , 即 

Threshold(V) = vv 
其 中 ,gain_ratio(w ) 一 maxfgain_ratio(u)}, 即 v, 是 各 wv; 的 信息 增益 率 最 大 者 。 
= 145 % 


则 连续 属性 A 可 以 分 割 为 


4 三 Threshold( 有 万 
4>Threshold( 有 万 


3. 决策 树 剪 枝 


由 于 噪声 和 随机 因素 的 影响 ,决策 树 一 般 会 很 复杂 ,因此 需要 进行 剪 枝 操作 。 

(1) 什么 时 候 剪 枝 

有 两 种 剪 枝 策略 : 在 树 生成 的 过 程 中 判断 是 否 还 继续 扩展 决策 树 。 若 停止 扩展 , 则 
相当 于 剪 去 该 结 点 以 下 的 分 支 。@ 对 于 生成 好 的 树 剪 去 某 些 结 点 和 分 支 。C4. 5 采用 第 二 
种 方法 。 

剪 枝 之 后 的 决策 树 的 叶 结 点 不 再 只 包含 一 类 实例 。 结 点 有 一 个 类 分 布 描述 , 即 该 叶 结 
点 属于 某 类 的 概率 。 

(2) 基于 误差 的 前 枝 

决策 树 的 剪 枝 通 常 是 用 叶 结 点 蔡 代 一 个 或 者 多 个 子 树 ,然后 选择 出 现 概率 最 高 的 类 作 
为 该 结 点 的 类 别 。 在 C4. 5 中 ,还 允许 用 其 中 的 树枝 来 替代 子 树 。 

如 果 使 用 叶 结 点 或 者 树枝 代替 原来 的 子 树 之 后 ,误差 率 若 能 够 下 降 , 则 使 用 此 叶 结 点 或 
者 树枝 代替 原来 的 子 树 。 


4， 从 决策 树 抽取 规则 


在 C4.5 中 ,对 于 生成 好 的 决策 树 , 可 以 直接 从 中 获得 规则 。 从 根 到 叶 的 每 一 条 路 径 都 
可 以 是 一 条 规则 。 这 样 , 可 以 看 出 有 多 少 条 路 径 就 可 以 产生 多 少 条 规则 。 例 如 ,从 下 面 的 决 
策 树 中 可 以 得 到 规则 : 

决策 树 : 


Fa 

50: Class0 

1 
Kk=0: Class0 
K=1: Classl 


F=1 
G=1: Classl 
G6=0 
50: Class0 
£1 
K=0: Class0 
K=1: Class1 


沿 着 决策 树 其 中 一 条 路 径 FG 一 J>K 得 到 规则 : 


正本 1 G0, 二 1 KE1 THEN classl 
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7.3 决策 规则 树 方 法 
7.3.1 IBLE 方法 基本 思想 


1. IBLE 方法 的 特点 


钟鸣 与 笔者 于 1991 年 研制 的 IBLE(Information-Based Learning from Examples) 方 法 
是 基于 信息 论 的 示例 学 习 方法 ,利用 信息 论 中 信道 容量 的 概念 作为 对 实体 中 选择 重要 特征 
的 度量 。 信 道 容量 是 一 个 不 依赖 于 正 \ 反 例 的 比例 , 仅 依赖 于 训练 集中 正 、 反 例 的 特征 取 值 
的 选择 量 。 这 样 ,信道 容量 克服 了 互信 息 依 赖 正 反例 比例 的 缺点 。IBLE 方法 不 同 于 ID3 
方法 每 次 只 选 一 个 特征 作为 决策 树 的 结 点 ,而 是 选 一 组 重要 特征 建立 规则 ,作为 决策 树 的 结 
点 。 这 样 , 用 多 个 特征 组 合成 规则 的 结 点 来 鉴别 实例 ,能 够 更 有 效 地 正确 判别 。 对 那些 不 能 
直接 判定 的 例子 继续 利用 决策 规则 树 的 其 他 规则 结 点 来 判别 ,这 样 一 直 进 行 下 去 ,直至 判 出 
类 别 为 止 。 

IBLE 方法 建立 的 是 决策 规则 树 , 树 中 每 个 结 点 是 由 多 个 特征 所 组 成 的 。 特 征 的 选取 
是 通过 计算 各 特征 信道 容量 来 进行 的 。 各 特征 的 正 例 标准 值 由 译 码 函数 决定 。 结 点 中 判别 
正 反例 的 阔 值 CS,,S, ) 是 由 实例 中 权 值 变化 的 规律 来 确定 的 。 


2. 多 元 信道 转化 成 二 元 信道 


在 各 特征 取 多 值 的 情况 下 ,用 互信 息 作为 特征 选择 量 ,会 出 现 倾 向 于 取 某 值 的 例子 数 较 
多 的 特征 ,这 种 倾向 并 不 都 合理 。 用 信道 容量 作为 特征 选择 量 也 必然 有 同样 的 问题 存在 。 
一 种 解决 办 法 是 对 特征 进行 分 解 , 如 前 面 举 的 例 中 ,特征 取 值 数目 不 一 样 可 以 把 它们 统统 化 
为 二 值 特征 。 例 如 天 气 取 值 晴 , 多 云 , 雨 ,可 以 分 解 成 三 个 特征 : 天 气 一 晴 、 天 气 一 多 云 .天 
气 一 雨 ,每 个 都 取 值 为 {yes,no}) ,对 气温 也 可 以 做 类 似 的 工作 。 这 样 在 选择 特征 时 就 不 会 出 
现 偏 向 问题 了 。 


3. 决策 规则 树 


IBLE 算法 从 训练 集中 归纳 出 一 棵 决策 规则 树 。 

判定 一 个 实体 属于 wu, 类 还 是 属于 us 类 ,首先 从 分 析 该 实体 的 特征 入 手 , 用 规则 分 析 会 
得 出 三 种 可 能 结论 ,@ 该 实体 属于 ww 类 ,@ 该 实体 属于 wu 类 ,@@ 不 能 做 出 判定 , 需 进 一 步 分 
析 后 再 做 结论 。 在 进一步 分 析 时 又 会 出 现 上 述 三 种 情形 。 对 一 实体 的 分 析 , 这 个 过 程 一 直 
进行 到 得 出 具体 类 别 为 止 。IBLE 就 是 依据 这 种 思想 构造 决策 规则 树 的 。 决 策 规则 树 如 
图 7.6 所 示 。 

对 于 更 复杂 的 问题 除 使 用 主 规则 外 ,还 增加 分 规则 ,得 出 如 图 7.7 所 示 的 决策 规则 树 。 


4. 决策 规则 树 结 点 


(1) 规则 表示 形式 
决策 规则 树 中 非 叶 结 点 均 为 规则 。 规 则 表示 为 
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规则 1 


规则 11 | 规则 12 
ul i 规则 2 zx i 
规则 1 规则 21 | 规则 22 
nl SS 规则 
规则 2 u 1 u. 
| sg a 
| Ww ny Wn 
规则 n 
We = , A\ s Sy 
图 7.6 IBLE 算 法 的 一 般 决策 规则 树 图 7.7 IBLE 算 法 的 复杂 决策 规则 树 


特征 : Ai,A:，…,An 

权 值 : Wi ,Ws，…,W, 

标准 值 : VisVar"s Vs 

阅 值 : S,，S， 

该 规则 可 形式 描述 为 

© sum:=0; 

@ 对 i:=1 到 mm 作 : 若 (A;)=V;; 则 sum: 二 sum 十 wi; 

@ 着 sum 三 5, , 则 该 例 为 N 类 ; 

@ 若 sum 宇 5,, 则 该 例 为 PP 类; 

@ 关 S, 二 sum<S, , 则 该 例 暂 不 能 判 , 转 下 一 条 规则 判别 。 

其 中 sum 表示 权 和 ,(A;) 表 示 特 征 A; 的 取 值 。 

规则 说 明 : Ai ,A: ,…',A。 为 组 成 规则 的 特征 ,Wi ,Ws，…,W, 为 对 应 的 权 值 ,Vi ,V;， 
,Vs 为 对 应 特征 取 正 例 的 标准 值 ,车 例子 在 该 特征 处 取 值 与 标准 值 相同 , 则 sum( 权 和 ) 加 
上 对 应 权 值 ,否则 不 加 。S; ,S, 是 判 是 、 判 非 .不 能 判 的 阔 值 。 若 例子 的 权 和 为 sum,sum 之 
S, 时 判 为 是 类 (om 类 ),sum 三 5S, 时 判 为 非 类 (xu 类 ),S,<sum<S, 时 认为 不 能 判 。 由 于 
S,、S, 的 作用 知道 ,图 7.7 的 分 规则 中 必 有 S, ==S,。 

(2) 举例 

为 说 明 规 则 中 各 成 分 的 意义 , 举 一 个 例子 。 设 问题 空间 中 例子 有 10 个 特征 (属性 ) , 特 
征 编号 从 1 到 10。 每 个 特性 取 值 为 {no,yes) ,用 {0.1} 表示, 规则 是 由 重要 特征 组 成 的 ,对 
每 个 特征 求 出 权 值 以 表示 其 重要 程度 ,删除 不 重要 特征 得 规则 如 下 : 

特征 1 3 4 6 7 

权 值 : 100 90 105 50 40 

标准 值 :1 0 YL 和 沦 

国 值 :220,100 

现 有 三 个 测试 例子 : 

例子 (100s051s050sL151) 

例子 2: (0,1,0,0,1,0,0,0,1,0) 
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合计 3 二 

例子 1 的 权 和 sum 王 230, 有 sum 过 220 ,判定 例 子 1 属于 w 类 。 例子 2 的 权 和 sum 一 
130, 有 100 二 sum 过 220, 认 为 例子 2 不 能 判 ,而 例子 3 有 权 和 sum 王 90, 有 sum<100 ,判例 
子 3 的 类 别 为 we 类 。 

IBLE 算法 由 四 部 分 组 成 : 预 处 理 、 建 决策 树 算法 、 建 规则 算法 、 类 别 判 定 算法 。 下 面 分 
别 介绍 。 


7.3.2 JIBLE 算法 
1. 预 处 理 


将 例子 集 的 特征 取 多 值 , 变 为 多 个 特征 分 别 取 {0,1} 值 , 即 一 个 特征 取 个 值 变 为 n 个 
特征 分 别 取 {0,1}) 值 。 


2. 建 规则 算法 


。 求 各 特征 A 的 信道 容量 Ci ,对 于 一 个 特征 有 分 特征 ( 原 一 个 特征 取 多 值 变 成 多 个 
特征 取 {0,1)} 值 时 ,该 多 个 特征 为 原 特征 的 分 特征 ) 时 , 取 最 大 C 值 的 分 特征 代表 该 
特征 。 

权 值 的 计算 ( 取 整 ) 公 式 为 : Wi 二 [Cs X1000]。 

。 利用 最 大 后 验 概率 准则 定义 该 特征 Au 的 译 码 函数 F(1) 、F(CO)。 

设 类 别 为 uw,w ,特征 V 取 值 1 和 0, 转 移 概率 为 PC1/i),PC0/w),P(1/u),P(0/u)。 

信道 容量 计算 后 ,可 同时 得 到 类 别 的 先 验 概率 PCG) 和 P(us)。 于 是 , 令 
SUM = P(u) Xx P(l/ui) + Plus) Xx P(1/u;) 
由 贝 叶 斯 公式 : P(u/1)==P(wuw)XP(1/u)/SUM,， 
P(us/1)=P(u,)XP(l/u)/SUM 

译 码 准则 为 : 当 PCG/1) 宇 Plwuz/1) 时 ,F(1) 二 ww; 否 则 ,F(0) 二 wl。 这 样 ,就 定义 了 

特征 V 对 类 别 ww( 正 例 ) 的 标准 值 1 或 0。 可 以 证 明 , 该 准则 的 错误 概率 最 小 。 

。 利用 译 码 函数 按 正 例 (xu ) 输 入 ,计算 特征 Ax 的 标准 值 {0,1)。 

。 选取 前 m 个 信道 容量 ( 即 权 值 ) 较 大 的 特征 构造 规则 。 

一 般 说 来 ,m 的 选取 应 保证 C 二 0. 01bit 的 特征 都 被 选中 (对 具体 问题 可 通过 试验 来 

确定 ) 。 

。 计算 所 有 的 正 反例 的 权 和 数 , 从 它们 的 分 布 规律 中 得 出 S, ,S, 阔 值 。 

建立 一 个 二 维 数组 A(m,n) ,m= 二 1,2,3;n 二 1,2,…,|UI(IU| 表 示例 子 总 数 )。 它 由 三 

项 组 成 ,A(1,n) 存 放 各 例 的 权 和 (例子 中 各 特征 的 权 值 累加 之 和 ) ,A(2,n) 存 放 正 例 个 数 ， 

当 例 子 是 正 例 时 , 它 为 1, 反之 为 零 。A(3,n) 存 放 反 例 个 数 , 当 例 子 是 反例 时 , 它 为 1, 反 之 

先 对 各 正 , 反 例子 求 权 和 并 填 人 数组 A(m,n) 中 。 再 按 权 和 大 小 从 小 到 大 的 顺序 对 数 

组 A(m,n) 进 行 排序 ,对 权 和 相同 的 不 同 的 正 反 例 , 将 它们 合并 成 一 列 相同 的 权 和 ,累计 正 

反例 个 数 。 这 样 ,数组 缩小 了 , 即 z 委 1U|。 而 且 正 反例 权 和 的 规律 性 就 出 现 了 : 权 和 小 的 
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部 分 , 正 例 个 数 为 零 ,反例 个 数 偏 大 ; 权 和 大 的 部 分 , 正 例 个 数 偏 大 ,反例 个 数 为 零 ,如 图 7.8 
所 示 。 


A(1, nm) 5, | 5 权 和 

4 站 | 0 | …| 0 [#0| -| -|z#0 |z0 | … [=z0 | 正 例 个 数 

AG,) | #0| … | #0|#0 | … | …|#0| 0 |… | 0 | 反例 个 数 
| 。 反例 区 。 .| 。 正 例 反例 混合 区 | 。 正 例 区 .| 


图 7.8 正 \ 反 例 权 和 变化 规律 


从 图 7.8 中 可 知 ,整个 例子 集合 中 ,划分 成 三 个 区 : 反例 区 , 正 反例 混合 区 , 正 例 区 。 在 
反例 区 中 , 正 例 个 数 A(2,n) 均 为 零 。 在 正 例 区 中 ,反例 个 数 A(3,n) 均 为 零 。 在 混合 区 中 ， 
正 例 个 数 A(2,n) 和 反例 个 数 A(3,n) 均 不 为 零 。 在 三 个 区 的 分 界线 处 的 权 和 值 作为 5S,、S， 
值 ,用 做 判别 正 反例 的 阔 值 。 


3. 建 决 策 树 算法 


设 T 为 存放 决策 规则 树 的 空间 。 

(1) 置 决策 规则 树 工 为 空 。 分 配 一 新 结 点 R,T.: 三 R。 

(2) 对 当前 训练 集 PEU NE, 利 用 “ 建 规 则 算法 ”构造 主 规则 。 

(3) 用 当前 规则 测试 PE、NE 得 子 集 PEP、PEN、PEM( 正 例 三 个 子 集 ) ,NEP NEN、 
NEM( 反 例 三 个 子 集 )。 其 中 PEP、PEN、PEM 分 别 表示 正 例 被 判 为 : P 类 、N 类 不 能 判 这 
三 个 子 集 。NEP .NEN 、NEM 分 别 表示 反例 被 判 为 : P 类 、N 类 .不 能 判 这 三 个 子 集 。 

(4) 将 当前 规则 放 入 结 点 R。 

(5) 若 (|PEP| 关 0)V (| NEP| 关 0) 则 PE: ==PEP;NE: = NEP; 分 配 一 新 结 点 Wi;R 
左 指针 指向 W。 

Q@ 对 当前 训练 集 PEU NE 利用 “ 建 规则 算法 ”构造 左 分 规则 ; 

@ 将 左 分 规则 放 入 结 点 Wi 。 

(6) 若 (|PEN| 关 0) V |NEN| 关 0) 则 PE: = 二 PEN,NE: ==NEN; 分 配 一 新 结 点 Ws;R 
右 指 针 指 向 W,。 

Q@ 对 当前 训练 集 PEU NE 利用 “ 建 规则 算法 ”构造 右 分 规则 ; 

@ 将 右 分 规则 放 入 结 点 W;。 

(7) 若 (|PEM| 关 0) V (| NEM| 关 0) 则 PE: ==PEM ,NE: = 二 NEM ;分 配 一 新 结 点 Ws;R 
的 中 指针 指向 Ws;R: = 二 Wi ; 转 (2)。 

(8) 结束 。 

建 决策 树 算法 如 图 7.9 所 示 。 


4. 类 别 判定 算法 


在 得 到 一 棵 决策 规则 树 后 ,对 一 未 知 实体 E 如何 分 类 ,下 面 给 出 具体 的 算法 : 
(1) 置 根 结 点 为 当前 结 点 。 
(2) 用 当前 结 点 中 的 规则 对 EE 进行 判定 。 
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ee 3 
by 
1 
PE ~ 建 KE me 一 上 
-2 PE’ J 
PEM -———-—- [ 
规则 一 | 规则 
NEP 一 
一 ~ NEN 一 ~| NE 一 
NE | -| 算法 |! 发 
T r | NEM -————- 
| 让 


图 7.9 IBLE 建 决策 树 算法 图 


@ 判 为 尸 时 (对 主 规则 ,该 实体 不 一 定 是 己 类 ), 若 当前 结 点 左 指针 不 空 ( 即 左 规则 存 
在 ) ,将 左 指针 指示 的 结 点 置 为 当前 结 点 且 转 (2) ,否则 ( 左 指针 为 空 ,该 实体 判 为 P 类 ) 转 
(3) 。 

@ 判 为 N 时 (对 主 规则 ,该 实体 不 一 定 是 N 类 ) , 若 当前 结 点 右 指针 不 为 空 ( 即 右 规则 
存在 ), 则 将 右 指 针 指示 的 结 点 置 为 当前 结 点 且 转 (2) ,否则 ( 右 指针 为 空 , 该 实体 判 为 N 类 ) 
转 (3)。 

@ 不 能 判 时 , 将 当前 结 点 的 中 指针 指示 的 结 点 置 为 当前 结 点 转 (2) 。 

(3) 输出 判别 结果 ,结束 。 


7.3.3 ”IBLE 方法 实例 
1. 配 隐形 眼镜 问题 


(1) 简 例 说 明 

QO@ 患者 配 隐 形 眼 镜 的 类 别 

患者 是 否 应 配 隐形 眼镜 有 三 类 : 

@1: 患者 应 配 隐形 眼镜 ; 

@2: 患者 应 配 软 隐形 眼镜 ; 

@3: 患者 不 适合 配 隐形 眼镜 。 

@ 患者 眼镜 诊断 信息 (属性 ) 

a: 患者 的 年 纪 

年 轻 ; 前 老 光 眼 ; 老 光 眼 

b: 患者 的 眼睛 诊断 结果 

近视 ;远视 

c: 是 否 散 光 

是 : 否 

d: 患者 的 泪腺 

不 发 达 ; 正 常 

@ 配 隐形 眼镜 实例 

现 有 24 个 患者 实例 分 别 属于 三 个 类 别 , 如 表 7. 2 所 示 。 
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表 7.2 配 隐 形 眼镜 患者 实例 


序 号 属性 取 值 诊 断 值 | 序 属性 取 值 诊 断 
abc 4 @ abre @ 
1 | :SR 3 13 2 2 1 
2 | I WO 2 14 多 -区 ,下 2 
3 | .2 | 3 15 2 2 2 3 
4 | i 党 1 16 沼 各 洛 3 
5 | I A Wh 3 1 3 3 
6 | 和 工 用 2 18 8 1 1 3 
7 | 2 3 19 1 3 
8 | 要 1 20 3 1 
9 a .1 3 21 3 2 1 3 
10 2 1 罗 2 22 3 2 1 2 
11 -A | 3 23 3 2 2 3 
12 21 2 2 1 24 2 
(2) 利用 IBLE 算法 得 出 的 各 类 决策 规则 树 和 逻辑 公式 
@ @1 类 的 决策 规则 树 
规则 1 
4 一 1 b=1 c=2 d=2 
05 2 0.048 0.282 0.282 
sl 二 0. 5639 
sl 3] 
非 @1 类 @1 类 
相应 的 逻辑 公式 为 
c=2Ad=2AMa=1>@]1 
c=2Ad=2Ab=1>@]1 
@ @2 类 的 决策 规则 树 
规则 2 
a=1.2 0 一 2 c=1 d=2 
0.039 0.008 0.302 0.302 
sl==0. 6042 
sl sl 
非 @2 类 @2 类 
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相应 的 逻辑 公式 为 
c=1MAd=2AMb=2>@2 
c=1Ad=2AMa=1~>@2 
c< 王 1 人 d 王 2 人 Ac 一 2 一 @2 
@ @3 类 的 决策 规则 树 


规则 3 
4 一 3 b=2 c=2 d=1 
0.0186 0.004 0.004 0.428 


sl 二 0.004 5s2 一 0. 0265 


<sl pp Na 


非 @3 类 1<sum<s2 @3 类 


规则 4 
a=2 b=1 c=1 
0.22 0.0144 0.0144 


sl=0.0144 
sl >;s1 
非 @3 类 @3 类 
该 决策 树 的 逻辑 公式 推导 为 : 


。 上 层 结 点 的 逻辑 公式 
d 一 1 一 @3 
a=3Ab=2Ac=2—> @3 
。 上层 不 能 判断 逻辑 公式 (中 线 结论 ) 
(b=2Ac=2)V 
(ae 一 3) V 
(a=3A6b=2)V 
(a 二 3 人 c= 2) 一 继续 判别 
。 下 层 结 点 的 逻辑 公式 
b=1l1Ac=1—> @3 
4 一 2 一 @3 
。 合并 后 下 层 结 点 的 逻辑 公式 (上 层 * 继 续 判 别 ? 逻 辑 公式 与 下 层 结 点 的 逻辑 公式 的 合 
并 。 合 并 时 ,同一 个 变量 不 能 同时 取 两 个 值 ) 
a=3Ab=1Ac=1—>@3 
a=2Ab=2AMc=2—@3 
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2. 茶 等 八 类 化 合 物 的 分 类 问题 


(1) 质谱 分 析 

质谱 仪 是 一 种 化 学 分 析 仪器 , 它 以 高 速 电 子 又 击 被 测 样本 ,使 分 子 产生 分 裂 碎 片 且 重新 
排列 ,测量 这 些 碎片 的 荷 质 比 及 能 量 形成 质谱 ,如 图 7. 10 所 示 。 分 析 化 学 家 根据 质谱 可 以 
推测 出 样本 的 分 子 结构 及 性 质 。 这 是 一 个 极为 复杂 和 困难 的 任务 ,原因 在 于 质谱 数据 量 太 
大 且 伴随 噪声 ,而 且 质谱 测定 理论 尚 不 完备 。 在 这 样 的 背景 下 ,要 用 传统 的 知识 获取 技术 建 
造 一 个 质谱 解析 专家 系统 是 极为 困难 的 。 因 此 ,用 计算 机 从 大 量 的 质谱 数据 中 自动 获得 一 
些 知识 便 成 了 一 个 诱 人 的 设想 。 


im i 


01234 500 ” 荷 质 比 (m/e) 


图 7.10 化 合 物质 谱 图 


(2) 实例 计算 

对 八 种 类 型 的 化 合 物 进行 学 习 、 识 别 , 其 中 前 三 种 类 型 分 别 为 WLN 码 中 含 R、T60TJ 
和 QR 的 化 合 物 ; 后 五 种 为 日 内 瓦 国际 会 议 的 技术 报告 中 给 出 的 五 类 有 机 磷 化 合 物 ,前 三 种 
类 型 化 合 物 的 训练 集 ,测试 集 的 构造 方法 是 : 从 31231 例 质谱 中 选 出 某 类 所 有 化 合 物 的 集 
合 T1 ,剩余 的 两 类 成 为 集合 T2。 从 Tl 中 随机 抽出 一 定数 目的 化 合 物 构 成 两 个 集合 T11、 
T12, 再 从 T2 中 随机 抽取 一 定数 目的 化 合 物 构 成 两 个 集合 T21、T22 用 T11 和 T21 组 成 训 
练 集 , 正 例 PE==T11, 反 例 NE==T21, 用 Tl2 和 T22 组 成 测试 集 。 对 于 后 五 种 有 机 磷 化 合 
物 (例子 数 不 多 ) ,上述 31231 例 前 三 类 质谱 中 都 没有 ,对 五 种 类 化 合 物 输入 时 ,每 种 抽取 八 
例 作为 训练 集中 的 正 例 集 , 剩 下 的 作为 测试 集 的 正 例 , 再 从 31231 例 质谱 中 抽出 999 例 作为 
训练 集 反 例 集 ,得 出 如 表 7. 3 所 示 的 训练 集 和 测试 集 。 用 IBLE 学 习 后 得 出 八 棵 决策 规则 
树 (在 此 省 略 ) ,对 测试 集 进行 识别 ,预测 正确 率 如 表 7.4 所 示 。 


表 7.3 八 类 训练 物 的 训练 集 和 测试 集 


训练 集 测试 集 
全 正 例 反例 正 例 反例 
R 2363 2400 102 155 
QR 571 2000 20 100 
T60TJ 500 2300 50 50 
类 一 8 999 5 999 
类 二 8 999 5 999 


训练 集 测试 集 
正 例 反例 正 例 反例 
类 三 8 999 2 999 
类 四 8 999 4 999 
类 五 8 999 1 999 
表 7.4 IBLE 对 八 类 化 合 物 的 预测 结果 
类 正 例 | 认 对 | 认错 | 正确 百分比 | 反例 | 认 对 | 认错 | 正确 百分比 | 总 正确 百分比 
R 102 95 7 93. 137 155 136 19 87.774 90. 439 
QR 20 15 5 75 100 84 16 84 79.5 
T60TJ 50 34 16 68 50 48 区 96 82 
类 一 5 5 0 100 999 997 2 99.8 99.9 
类 三 5 5 0 100 999 997 2 99.8 99.9 
类 三 2 2 0 100 999 999 0 100 100 
类 四 4 4 0 100 999 999 0 100 100 
类 五 1 0 100 999 999 0 100 100 
本 实验 中 ,预测 正确 率 是 这 样 计 算 的 : 先 分 别 计算 正 、 反 例 的 预测 正确 率 , 然 后 两 者 相 


加 除 以 2 得 出 总 预测 正确 率 , 这 种 做 法 在 实际 问题 中 可 信 程 度 较 高 。 从 表 7. 5 知道 ,对 于 八 
类 化 合 物 ,IBLE 的 平均 预测 正确 率 为 93. 967%。 
(3) IBLE 与 ID3 的 比较 


@ 实例 计算 情况 


为 了 比较 IBLE 与 ID3 在 正 、 反例 数 目 变 化 情况 下 的 性 能 ,从 八 种 类 型 中 随机 抽取 三 
类 , 即 R,T60TJ 和 有 机 磷 化 合 物 中 的 第 二 类 进行 实验 。 两 种 算法 关于 三 种 化 合 物 的 平均 
预测 正确 率 如 表 7.5 所 示 。 可 以 看 出 ,IBLE 的 预测 正确 率 比 ID3 高 出 近 10 个 百分点 。 


表 7.5 IBLE 和 1D3 的 平均 预测 正确 率 


IBLE(%) ID3(%%) 
R 81.779 72. 203 
T60TJ 76.786 70. 643 
类 二 98. 334 89. 322 


对 IBLE 算法 ,在 训练 集中 正 、 反 例子 数目 做 大 的 变化 时 ,进行 测试 情况 见 表 7.6。 从 
表 7.6 中 可 见 , 正 例 数 不 变 化 ,反例 数 逐 步 减少 时 ,正确 识别 率 稍 有 提高 。 而 反例 数 不 变 , 正 


例 数 减少 时 ,正确 识别 率 显著 下 降 。 正 、 反 例 都 下 降 时 ,正确 识别 率 在 逐步 下 降 。 


表 7.6 R 类 例子 数目 变化 时 识别 情况 


训 练 集 对 正 例 对 反 例 
正 例 反例 认 对 认错 正确 % 认 对 认错 正确 % 
2363 2400 95 7 93. 137 84 18 82. 353 
2363 1200 88 14 86. 275 84 18 82. 353 
2363 400 91 11 89.216 99 3 97.059 
2363 200 98 4 96. 078 101 1 99.1 
2363 100 98 4 98. 078 101 1 99.1 
2363 2400 95 7 93. 137 84 18 82. 353 
1181 2400 76 26 74. 51 71 31 69. 608 
393 2400 68 34 66.667 46 56 45. 098 
196 2400 54 48 52.941 35 67 34. 314 
98 2400 50 52 49. 02 24 78 23.520 
2363 2400 95 7 93. 137 84 18 82. 353 
393 400 75 27 73. 529 75 27 73.529 
196 200 87 15 85. 294 80 22 78. 431 
98 100 87 15 85. 294 70 32 68. 627 
@ 原因 分 析 


IBLE 的 预测 正确 率 之 所 以 比 ID3 高 ,原因 在 于 : 
。 IBLE 用 信道 容量 作为 特征 选择 量 , 而 ID3 用 互信 息 , 信 和 道 容量 不 依赖 于 正 、 反 例 的 
比例 ,互信 息 依赖 训练 集中 正 反 例 的 比例 。 
。 IBLE 在 建树 过 程 中 ,每 次 选择 多 个 特征 构成 规则 ,变量 间 的 相关 性 得 到 较 好 的 体 
现 。ID3 在 建树 过 程 中 ,每 次 选择 一 个 特征 作为 结 点 ,不 能 较 好 地 体现 特征 间 的 相 
关 性 。 
@ IBLE 决策 规则 树 的 特点 
。 IBLE 的 决策 规则 树 中 的 规则 在 表示 和 内 容 上 与 专家 知识 具有 较 高 的 一 致 性 。 
以 R( 茶 ) 的 决策 规则 树 中 第 一 条 规则 为 例 。 规 则 列 出 了 峰 系 列 ,与 专家 知识 表示 是 一 
致 的 ,第 一 条 规则 指出 在 m/e 二 27,50 一 52,62 一 65,74 一 78,89 一 92,104 一 105 处 应 有 峰 。 
有 关 文 献 中 认为 含 茶 化 合 物 的 重要 系列 应 是 m/e 二 38 一 39,50 一 52,63 一 65,75 一 78,91， 
105,119,113 等 。 比 较 一 下 可 知 ,在 列 出 的 这 16 个 峰 中 第 一 条 规则 就 包含 了 12 个 ,而 且 都 
是 权 值 较 大 的 峰 。 专 家 知识 中 一 般 不 指出 哪些 地 方 应 无 峰 , 而 IBLE 的 规则 中 也 指 了 出 来 ， 
这 是 对 专家 知识 的 一 种 补充 。 而 ID3 的 决策 树 在 表示 上 与 专家 知识 相差 较 大 ,在 内 容 上 也 
不 易 做 到 与 专家 知识 具有 一 致 性 (原因 在 于 用 互信 息 选择 主要 特征 依赖 于 训练 集中 正 、 反 例 
的 比例 ,而 实际 问题 中 正 、 反 例 的 比例 不 易 确定 )。 
。 在 训练 集中 , 若 正 、 反 例 数 目 变化 较 大 ,IBLE 得 到 的 规则 具有 和 较 好 的 稳定 性 。 
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这 在 R 的 训练 集中 正 、 反 例 数目 变化 较 大 的 情况 下 ,IBLE 得 出 的 各 决策 规则 树 中 第 一 
条 规则 ,都 含有 相同 的 41 个 特征 Gm/e 二 41,42,43,50,51,54,55,56,57,58,59,62,63,64， 
65,67,68,69,70,71,72,75,76,77,78,81,82,83,84,85,89,90,91,92,96,97,98,100,104， 
105,143, 包 括 有 峰 、 无 峰 ) ,在 相同 的 变化 下 ID3 的 决策 树 头 两 层 7 个 重要 能 量 中 ,无 共同 的 
特征 。 

总 之 ,IBLE 的 规则 与 专家 知识 在 内 容 上 有 和 较 高 的 一 致 性 ,用 IBLE 获取 的 知识 建立 的 
专家 系统 对 实例 的 判别 进行 解释 时 提供 了 良好 的 条 件 。 这 一 点 正 是 ID3 的 一 个 重要 缺陷 。 

显然 ,IBLE 比 ID3 优越 。 

(4) 小 结 

这 里 提出 的 机 器 学 习 的 信道 模型 ,系统 地 论述 了 示例 学 习 的 信息 论 , 利 用 新 的 特征 选择 
量 一 信道 容量 , 即 用 信道 容量 来 选取 重要 特征 的 思想 ,不 仅 用 于 机 器 学 习 和 数据 挖掘 之 中 ， 
也 可 以 用 于 模式 识别 的 特征 抽取 。 在 上 面 的 试验 中 ,对 八 类 化 合 物 的 质谱 分 类 问题 ,用 神经 
网 络 中 的 感知 机 和 反 向 传播 模型 进行 学 习 , 由 于 特征 太 多 ,两 种 方法 的 迭代 都 不 收敛 。 

利用 信道 容量 进行 特征 提取 后 ,再 用 感知 机 和 B-P 模型 学 习 , 都 取得 了 较 好 的 效果 。 
感知 机 的 平均 预测 正确 率 为 ?9% ,B-P 模型 的 平均 预测 正确 率 为 84%。 

IBLE 示例 学 习 算法 实现 简单 .学习 正确 性 较 高 ,所 得 知识 在 表示 和 内 容 上 与 专家 知识 
有 较 高 的 一 致 性 ,而 且 特 别 适合 于 处 理 大 规模 的 学 习 问 题 ,可 作为 专家 系统 的 知识 获取 
工具 。 


习 题 7 


. 信息 论 的 基本 原理 是 什么 ? 
. 学 习 信道 模型 是 什么 ? 
为 什么 机 器 学 习 和 数据 挖掘 的 分 类 问题 可 以 利用 信息 论 原理 ? 
. 自信 息 和 互信 息 的 含义 是 什么 ?它们 的 计算 公式 是 什么 ? 
信道 容量 的 含义 是 什么 ? 它 与 互信 息 有 什么 关系 ? 
. 译 码 准则 的 基本 思想 是 什么 ? 
. 决策 树 方法 的 基本 思想 是 什么 ? 
. 说 明 ID3 方法 的 建树 算法 步骤 。 
. 设计 用 ID3 决策 树 进 行 实例 判别 的 判定 算法 。 
10. 编制 ID3 算法 的 计算 机 程序 ,并 用 表 7. 1 气候 训练 集 例子 进行 测试 。 
11. 对 于 7.1 气候 训练 集 , 用 CLS 方法 建树 : 任意 选 一 字段 项 (如 气温 ) 为 根 结 点 ,其 字 
段 项 各 取 值 为 分 支 ,对 各 分 支 数 据 子 集 重复 上 述 操作 ,向 下 扩展 此 决策 树 ,直到 数据 子 集 属 
于 同一 类 数据 ( 即 叶 结 点 ) 为 止 , 并 标记 叶 结 点 为 P 类 或 N 类 。 
请 比较 CLS 决策 树 与 ID3 决策 树 的 优 缺 点 。 
12. 在 表 7. 1 气候 训练 集中 ,对 天 气 王 睛 的 数据 子 集 , 计 算 各 特征 (天 气 ` 气温、 湿度 、 
风 ) 的 互信 息 是 多 少 ? 哪个 特征 的 互信 息 最 大 ? 
13. C4.5 方法 对 ID3 方法 的 改进 主要 体现 在 什么 地 方 ? 


> ~ 


oma 
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14. 信息 增益 率 与 信息 增益 有 什么 不 同 ? 在 C4. 5 中 为 什么 使 用 信息 增益 率 作 为 分 支 
标准 ? 
15. 在 C4.5 中 如 何 对 连续 属性 进行 处 理 ? 
16. IBLE 算法 用 什么 来 选择 重要 属性 构造 决策 规则 树 结 点 ? 
17. IBLE 决策 树 的 表示 形式 是 什么 ?比较 IBLE 决策 规则 树 和 ID3 决策 树 有 什么 
不 同 ? 

18. IBLE 决策 树 中 结 点 的 表示 形式 是 什么 ? 
19. 设 某 例子 集 的 IBLE 决策 规则 树 的 结 点 规则 为 : 

特征 a b 区 d 

权 值 0.021 0.048 0.282 0.282 

标准 值 1 2 2 

阔 值 S, 一 0.564 S, =0. 585 
现 有 两 个 例子 的 特征 取 值 分 别 为 : 

a 1，p 史 2，d 2 
a | Wy- 1l, dd 2 

请 用 该 结 点 规则 判别 它们 属于 {P 了 类、N 类 ,不 能 判别 } 中 的 哪 种 情况 ? 
20. 说 明 IBLE 决策 规则 树 中 结 点 中 闽 值 S, 和 S， 求解 的 思想 。 
21. 说 明 IBLE 建 规则 算法 。 
22. 说 明 隐形 眼镜 简 例 中 @3 类 决策 规则 树 的 含义 。 
23. 说 明 从 简 例 中 @3 类 决策 规则 树 求 出 其 相应 的 逻辑 公式 。 
24. 请 说 明 IBLE 方法 比 ID3 方法 的 技术 进步 点 。 
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5 已 站 NN ON 
弟 3 章 经 合 论 万 运 


合 论 原理 是 数据 挖掘 的 重要 理论 基础 ,可 用 于 分 类 问题 . 聚 类 问题 和 关联 规则 挖掘。 

合 论 原理 用 于 分 类 问题 时 ,主要 是 利用 集合 之 间 的 覆盖 关系 ,如 粗糙 集 方法 是 对 条 件 
属性 和 决策 (类 别 ) 属 性 中 的 等 价 类 (一 个 或 多 个 属性 取 值 均 相 同 的 元 组 ) 之 间 的 覆盖 关系 ; 
AQ11 方法 是 对 覆盖 正 例 排斥 反例 的 种 子 ( 多 个 属性 取 值 的 与 关系 ) ,构成 规则 知识 。 

合 论 原 理 用 于 解决 聚 类 问题 时 ,主要 是 按 数据 集中 元 素 间 的 距离 远近 或 相似 度 大 小 ， 
聚 成 多 个 类 别 集合 。 

合 论 原理 用 于 关联 规则 挖掘 时 是 计算 数据 项 (如 商品 ) 集 在 整个 集合 中 和 相关 集合 中 
所 占 的 比例 ,大 于 阔 值 (支持 度 和 可 信和 度 ) 时 构成 数据 项 之 间 关 联 规 则 。 


8.1 粗糙 集 方法 


8.1.1 粗糙 集 概念 


粗糙 集 (Rough Set) 是 波兰 数学 家 Z. Pawlak 于 1982 年 提出 的 。 粗 糙 集 以 等 价 关 系 
(不 可 分 辨 关系 ) 为 基础 ,用 于 分 类 问题 。 它 用 上 、` 下 近似 两 个 集合 来 逼近 任意 一 个 集合 ,该 
集合 的 边界 线 区 域 被 定义 为 上 近似 集 和 下 近似 集 之 差 集 。 上 、 下 近似 集 可 以 通过 等 价 关系 
给 出 确定 的 描述 ,边界 域 的 含糊 元 素数 目 可 以 被 计算 出 来 。 而 模糊 集 (Fuzzy) 是 用 隶属 度 来 
描述 集合 边界 的 不 确定 性 ,隶属 度 是 人 为 给 定 的 ,不 是 计算 得 出 的 。 

粗糙 集 理 论 用 在 数据 库 中 的 知识 发 现 主要 体现 在 : 

。 利用 等 价 关 系 对 数据 库 进行 属性 约 简 ; 

。 利用 集合 的 上 、 下 近似 关系 获取 分 类 规则 。 


1. 基本 定义 


(1) 信息 表 定 义 

信息 表 S=(U,R,V ,了 f) 的 定义 为 : 

U: 是 一 个 非 空 有 限 对 象 (元 组 ) 集 合 ,0 二 {zi ,xs，… ,x,) ,其 中 x; 为 对 象 ( 元 组 )。 

R: 是 对 象 的 属性 集合 ,分 为 两 个 不 相交 的 子 集 , 即 条 件 属性 C 和 决策 属性 D ,R= 
GUD 

V: 是 属性 值 的 集合 , V。 是 属性 a ER 的 值 域 。 

f: 是 UXR>V 的 一 个 信息 函数 , 它 为 每 个 对 象 x 的 每 个 属性 a 赋予 一 个 属性 值 , 即 a 
ER,rEU, f(x)EV,, 

(2) 等 价 关 系 定义 

对 于 VaE€ A(A 中 包含 一 个 或 多 个 属性 ),ACR,rEU,yEUDU ,它们 的 属性 值 相 同 , 即 : 
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falzx) 一 太 (y) 《8 区 
成 立 , 称 对 象 + 和 y 是 对 属性 A 的 等 价 关 系 ,表示 为 
IND(A) = {(z,y) | (x,y) EU XU, Va € A,fslzx) = f(y)} (8.2) 
(3) 等 价 类 定义 
在 U 中 ,对 属性 集 A 中 具有 相同 等 价 关 系 的 元 素 集 合 称 为 等 价 关 系 IND(A) 的 等 价 
类 ,表示 为 


[zja = {y | (zx,y) € IND(A)} (8. 3) 

(4) 划分 的 定义 
在 U 中 对 属性 A 的 所 有 等 价 类 形成 的 划分 表示 为 

= {EB, |E= oi= 13525525 (8. 4) 

具有 特性 : 

© E.G 
©@ 当 ij 时 ,EME,=2 
Q@ U= UP 


例 1: 设 U={a( 体 温 正常 ) ,0( 体 温 正 常 ),c( 体 温 正常 ) ,d( 体 温 高 ),e( 体 温 高 ), 六 体温 
很 高 )} 
对 于 属性 A( 体 温 ) 的 等 价 关 系 有 : 
IND(A) ={(a,b),(asc), (b,c),(d,e), (ed),(asa),(b,0), (ce,c), 
(d,d), (ese),(f,f)} 
属性 A 的 等 价 类 有 : 
E, [aja = [OA = [cja {a,b,c} 
E;, = [aja = [Leja = {d,e} 
B=[fh= (f} 
U 中 对 属性 A 的 划分 为 
A= {EE,,E} = {{a,b,c},{d,e},{(f}} 


2. 集合 XX 的 上 下 近似 关系 


(1) 下 近似 定义 
对 任意 一 个 子 集 XSU, 属 性 A 的 等 价 类 EE; 二 [zja, 有 : 
A_(X) =U {E| EE€éEAMA ECX} 8,5) 
或 
A-_ (X)= {z | [zjs SX} (8. 6) 
表示 等 价 类 E; 二 [xja 中 的 元 素 z 都 属于 X, 即 VzEA-(X), 则 zx 一 定 属于 X。 
(2) 上 近似 定义 
对 任意 一 个 子 集 XSU ,属性 A 的 等 价 类 下 ,= 王 [zj]s, 有 : 
1 三 二 (下 机 全 点 大黄 作 莹 去 她 } 《8.7) 


A-(X)={r|[zrzjaN XO} (8.8) 
。 160 。 


表示 等 价 类 E; 一 [zx] 中 的 元 素 x 可 能 属于 X, 即 YzEA-(CX), 则 xz 可 能 属于 X ,也 可 
能 不 属于 X。 

(3) 正 域 , 负 域 和 边界 的 定义 

全 集 U 可 以 划分 为 三 个 不 相交 的 区 域 , 即 正 域 (Pos) , 负 域 (NEG) 和 边界 (BND): 


Posa(X) = A_ (X) (8.9) 
NEGA(X) =U—A (X) (8.10) 
BNDaA(X)= A (X)—A_ (X) (8,11) 
从 上 式 可 见 : 
A  (X) = A- (X)++ BNDa(X) (8. 12) 
用 图 8. 1 说 明正 域 . 负 域 和 边界 ,每 一 个 小 长 方形 表示 一 个 等 价 类 。 
国 一 NEG (0 
Pos (X) 
=4_(%) 
XxX 
BND (0 


国 焉 国 绕 ”|[ |] 泛 


图 8.1 正 域 . 负 域 和 边界 


从 图 8. 1 中 可 以 看 出 ,任意 一 个 元 素 zxE Pos(X), 它 一 定 属于 X; 任 意 一 个 元 素 +E 
NEG(X), 它 一 定 不 属于 X; 集 合 X 的 上 近似 是 其 正 域 和 边界 的 并 集 , 即 


A- (X) = Poss(X) U BNDA(X) (8. 13) 

对 于 元 素 x-E BND(X) ,是 无 法 确定 其 是 否 属于 X 的 ,因此 对 任意 元 素 xE A (X), 只 
知道 x 可 能 属于 XX。 
(4) 粗糙 集 定 义 


若 A-(X)=A-(X), 即 BNDCX) 王 已 , 即 边界 为 空 , 称 X 为 A 的 可 定义 集 ; 和 否则 X 为 
A 不 可 定义 的 , 即 A-(X) 关 A_(X), 此 时 称 义 为 A 的 Rough 集 ( 粗 糙 集 ) 。 
(5) 确定 度 定义 
IUI—|A-X—A_X| 
IU| 


其 中 |U1 和 14A-X 一 A-XI 分 别 表示 集合 U、(A-X 一 A-X) 中 的 元 素 个 数 。 

aa(X) 的 值 反映 了 U 中 能 够 根据 A 中 各 属性 的 属性 值 就 能 确定 其 属于 或 不 属于 X 的 
比例 ,也 即 对 U 中 的 任意 一 个 对 象 , 根 据 A 中 各 属性 的 属性 值 确定 它 属 于 或 不 属于 X 的 可 
信和 度 。 


aa(X) (8.14) 
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确定 度 性 质 : 
0 委 aa(CX) 委 1 (8.15) 

(1) 当 as(X) 二 1 时,U 中 的 全 部 对 象 能 够 根据 A 中 各 属性 的 属性 值 就 可 以 确定 其 是 
否 属 于 X,X 为 A 的 可 定义 集 。 

(2) 当 0<oa(CX) 过 1 时 ,U 中 的 部 分 对 象 根 据 A 中 各 属性 的 属性 值 可 以 确定 其 是 否 属 
于 X ,而 另 一 部 分 对 象 是 不 能 确定 其 是 否 属于 X。X 为 A 的 部 分 可 定义 集 。 

(3) 当 as(X)==0 时 ,U 中 的 全 部 对 象 都 不 能 根据 A 中 各 属性 的 属性 值 确定 其 是 否 属 
于 X,X 为 A 的 完全 不 可 定义 集 。 

当 X 为 A 的 部 分 可 定义 集 或 X 为 A 的 完全 不 可 定义 集 时 , 称 为 A 的 Rough 集 ( 粗 
糙 集 ) 。 

例 2: 对 例 1 的 等 价 关 系 A 有 集合 X={0,c, 太 是 粗糙 集 , 计 算 集 合 X 的 下 近似 、 上 近 
似 、 正 域 . 负 域 和 边界 。 

U 中 关于 A 的 划分 为 : 


A= {{a,b,c},{d,e},{f}} 


有 : 
XN {ab,c} = {b,c} GG 
XN {de}=8 
XN{f}={f}A8 
可 知 有 : 
A- (X) = {7f} 


A (X) = {a,b,c} U {f} = {a,b,c,f} 
Posa(X) = A_ (X) = {f} 

NEGA(X) =U—A (X) = {d,e} 
BNDaA(X) = A (X)—A- (X) = {a,b,c} 


8.1.2 属性 约 简 的 粗糙 集 理 论 
1. 属性 约 简 概念 


在 信息 表 中 根据 等 价 关 系 , 可 以 用 等 价 类 中 的 一 个 对 象 ( 元 组 ) 来 代表 整个 等 价 类 ,这 实 
际 上 是 按 纵 方向 约 简 了 信息 表 中 数据 。 对 信息 表 中 的 数据 按 横 方向 进行 约 简 就 是 看 信息 表 
中 有 无 元 余 的 属性 , 即 去 除 这 些 属性 后 能 保持 等 价 性 ,从 而 有 相同 的 集合 近似 ,使 对 象 分 类 
能 力 不 会 下 降 。 约 简 后 的 属性 集 称 为 属性 约 简 集 , 约 简 集 通常 不 唯一 ,找到 一 个 信息 表 的 所 
有 约 简 集 不 是 一 个 在 多 项 式 时 间 里 所 解决 的 问题 , 求 最 小 约 简 集 ( 含 属性 个 数 最 少 的 约 简 
集 ) 同 样 是 一 个 困难 问题 ,实际 上 它 是 一 个 NP-hard 问题 。 因 此 研究 者 提出 了 很 多 启发 式 
算法 ,如 基于 遗传 算法 的 方法 等 。 

(1) 约 简 定 义 

给 定 一 个 信息 表 IT(U,.A) , 若 有 属性 集 BSA, 且 满足 IND(B)==IND(A), 称 B 为 A 的 
一 个 约 简 , 记 为 red(A), 即 : 

。 162 。 


B= red(A) (8.16) 
(2) 核定 义 
属性 集 A 的 所 有 约 简 的 交集 称 为 A 的 核 。 记 为 
core(A) = red(A) (8 17) 
core(A) 是 A 中 为 保证 信息 表 中 对 象 可 精确 定义 的 必要 属性 组 成 的 集合 ,为 A 中 不 能 
约 简 的 重要 属性 , 它 是 进行 属性 约 简 的 基础 。 
上 面 的 约 简 定义 没有 考虑 决策 属性 , 现 研究 条 件 属性 C 相对 决策 属性 DD 的 约 简 。 
(3) 正 域 定义 
设 决 策 属性 DD 的 划分 A 二 {yi1,ys，…,y,} ,条件 属性 C 相对 于 决策 属性 DD 的 正 域 定 
义 为 


Posc(D) =U C_(y,) (8. 18) 
(4) 条 件 属性 C 相对 于 决策 属性 DD 的 约 简 定义 
车 cEC, 如 果 Poscc_4o)(D) 二 Posc(D), 则 称 c 是 C 中 相对 于 DD 不 必要 的 , 即 可 约 简 
的 。 否 则 称 c 是 C 中 相对 于 DD 必要 的 。 
(5) 条 件 属性 C 相对 于 决策 属性 DD 的 核定 义 
车 RSEC, 如 果 尺 中 每 一 个 cER 都 是 相对 于 DD 必要 的 , 则 称 R 是 相对 于 D 独立 的 。 如 
果 尺 是 相对 于 DD 独立 的 , 且 Posk(D) 二 Posc(D), 则 称 R 是 C 中 相对 于 DD 的 约 简 , 记 为 
redp(C) ,所 有 这 样 简约 的 交 , 称 为 C 的 DD 核 , 记 为 
corep(C) = redp (COC) (8.19) 
一 般 情况 下 ,信息 系统 的 属性 约 简 集 有 多 个 ,但 约 简 集 中 属性 个 数 最 少 的 最 有 意义 。 


2. 属性 约 简 实例 
气候 信息 表 是 4 个 条 件 属性 (天 气 w ,温度 wz ,湿度 cs , 风 w ) 和 1 个 决策 属性 (类 别 


dd) , 见 表 8. 1。 
表 8.1 气候 信息 表 
序号 天 气 al 气温 az 湿度 as 风 as 类 别 a 
晴 热 高 无 风 N 
2 晴 热 高 有 风 N 
3 多 云 热 高 无 风 到 
4 雨 适中 高 无 风 更 
5 雨 冷 正常 无 风 妨 
6 雨 冷 正常 有 风 N 
多 云 冷 正常 有 风 PB 
8 晴 适中 高 无 风 N 
9 晴 冷 正常 无 风 P 
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序号 天 气 a 气温 az 湿度 as 风 as 类 别 a 
10 雨 适中 正常 无 风 P 
11 晴 适中 正常 有 风 更 
12 多 云 适中 高 有 风 P 
13 多 云 热 正常 无 风 P 
14 十 适中 高 有 风 N 


me hadi 
IND(CC) = {{1},{2},{3},{4},{5}),{6}),{7},{8},{9},{10},{11},{12),{(13},{14}} 
IND(D)= {{ 和 
Posc(D)=U 
Cy Win 
IND(C\{a1}) = {({1,3},{ 0 8},{5,9},46,7},{10}),{11},{12,14),{13}} 
dpm = {{1,8},{2},{3},{4},{5,10},{6},{7}),{9),{11},{(12},{13}),{14}} 
win {{1},{2),{3,13},{4,10},{(5},{6},{7},{8},{9}),{11},{(12},{(13), {14}} 
IND(C\{@}) = {{1,2};{3},{4,14},{5,6}),{7},{8},{9},{10}), {11},{12},{13}} 
计算 减少 一 个 条 件 属性 相对 决策 属性 的 正 域 
Poscva np (D) = {2,5,9,10,11} UU 
Poscce) (D) = UL =. PontD) 
Poscatas» (D) = U = Pos.(D) 
Posccte) (D) = {1,253,758;9,10,11,12,13} 关 可 UU 
由 此 可 知 ,属性 ws .as 是 相对 于 决策 属性 4 可 省 略 的 ,但 不 一 定 可 以 同时 省 略 ,而 属性 
a 和 as 是 相对 于 决策 属性 不 可 省 略 的 ,因此 : 
core(c) = {aisa4} 
(2) 计算 同时 减少 {as ,as } 的 等 价 关 系 和 正 域 
IND(C\{arsas}y = (L805 {211 (3 13}s {4555 10}s (060514) 073 小 
Postcte ah) (D) = {3,4,5,6,7,10,12,13,14} 天 局 
说 明 {as ,as } 同 时 是 不 可 省 略 的 。 
(3) 在 {az ,as } 中 只 能 删除 一 个 属性 
即 存 在 两 个 约 简 : 
redp(C) = {{aisas sas} s (a1sas sas}} 
从 实例 计算 中 可 以 看 出 ,信息 表 的 属性 约 简 是 在 保持 条 件 属 性 相对 决策 属性 的 分 类 能 
力 不 变 的 条 件 下 ,删除 不 必要 的 或 不 重要 的 属性 。 一 般 来 讲 ,条 件 属性 对 于 决策 属性 的 相对 
约 简 不 是 唯一 的 , 即 可 能 存在 多 个 相对 约 简 。 
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8.1.3 属性 约 简 的 粗糙 集 方法 
1. 属性 依赖 度 


(1) 属性 依赖 度 定义 
信息 表 中 条 件 属 性 C 和 决策 属性 DD ,属性 D 依赖 属性 C 的 依赖 度 定义 为 
CDY =| Pose DYN 7 可 | (8. 20) 
中 |Posc(D) | 表示 正 域 Posc(D) 的 元 素 个 数 ,|1U | 表示 整个 对 象 集合 的 个 数 。 
Y(C,D) 的 性 质 : 
Q@ 车 y=1, 意 味 着 IND(C)SIND(D), 即 在 已 知 条 件 C 下 ,可 将 U 上 全 部 个 体 准确 分 
类 到 决策 属性 D 的 类 别 中 去 , 即 D 完全 依赖 于 C 。 
@ 若 0 一 y<1, 则 称 D 部 分 依赖 于 CCD Rough 依赖 于 C) , 即 在 已 知 条 件 C 下 ,只 能 将 
U 上 那些 属于 正 域 的 个 体 分 类 到 决策 属性 DD 的 类 别 中 去 。 
@ 车 7=0, 则 称 D 完全 不 依赖 于 C, 即 利用 条 件 C 不 能 分 类 到 DD 的 类 别 中 去 。 
(2) 相关 命题 
根据 属性 依赖 度 定义 ,可 以 得 到 如 下 命题 ; 
命题 1: 如 果 依 赖 度 y=1, 则 信息 表 是 一 致 的 ,否则 是 不 一 致 的 。 
命题 2: 每 个 信息 表 都 能 唯一 地 分 解 成 一 个 一 致 信息 表 (yY=1) 和 一 个 完全 不 一 致 信息 
表 (y=0)。 


y 
4 


2. 属性 重要 度 


(1) 属性 重要 度 的 定义 
C,DCA,C 为 条 件 属性 集 ,D 为 决策 属性 集 ,a€C, 属 性 a 关于 的 重要 度 定义 为 
SGF(a,C,D) = Y(C,D) —7Y(C— {a},D) (8..21 

其 中 yY(C 一 {a),D) 表 示 在 C 中 缺少 属性 a 后 ,条 件 属性 与 决策 属性 的 依赖 程度 。SGF (a， 
C,D) 表 示 C 中 缺少 属性 a 后 ,导致 不 能 被 准确 分 类 的 对 象 在 系统 中 所 占 的 比例 。 

(2) SGF(a,C,D) 性 质 

DSGP(a CDYEL0: 

@ 若 SGF(a,C,D)=0, 表 示 属 性 w 关于 是 可 省 的 。 因 为 从 属性 集中 去 除 属性 a 后 ， 
C 一 {a) 中 的 信息 ,原来 可 被 准确 分 类 所 有 对 象 仍 能 准确 划分 到 各 决策 类 中 去 。 

@ SGF(a,C,D) 隆 0, 表 示 属 性 a 关于 DD 是 不 可 省 的 。 因 为 从 属性 集 C 中 去 除 属性 a 
后 , 某 些 原来 可 被 准确 分 类 的 对 象 不 再 能 被 准确 划分 。 


3. 最 小 属性 集 概念 


对 信息 系统 最 广泛 的 应 用 是 数据 库 。 在 数据 库 中 根据 决策 属性 将 一 组 对 象 划分 为 各 不 
相交 的 等 价 集 (决策 类 ) ,希望 能 通过 条 件 属性 来 决定 每 一 个 决策 类 ,并 产生 每 一 个 类 的 判定 
规则 。 大 多 数 情况 下 ,对 每 个 给 定 的 学 习 任 务 ,数据 库 中 存在 一 些 不 重要 属性 ,希望 找到 一 
个 最 小 的 相关 属性 集 , 它 具有 与 全 部 条 件 属性 同样 的 区 分 决策 属性 所 划分 的 决策 类 的 能 力 ， 
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从 最 小 属性 集中 产生 的 规则 会 更 简练 和 更 有 意义 。 

最 小 属性 集 定义 : 设 C.D 分 别 是 信息 系统 S 的 条 件 属性 集 和 决策 属性 集 , 属 性 集 P(P 
SC) 是 C 的 一 个 最 小 属性 集 , 当 且 仅 当 y(P,D)==yY(C,D) 并 且 YVP'CP,Y(P’,D) 关 Y(P， 
D) ,说 明 若 尸 是 C 的 最 小 属性 集 , 则 已 具有 与 C 同样 的 区 分 决策 类 的 能 力 。 

需要 注意 的 是 ,C 的 最 小 属性 集 一 般 是 不 唯一 的 ,而 要 找到 所 有 的 最 小 属性 集 是 一 个 
NP 问题 。 在 大 多 数 应 用 中 ,没有 必要 找到 所 有 的 最 小 属性 集 。 用 户 可 以 根据 不 同 的 原则 
来 选择 一 个 他 认为 最 好 的 最 小 属性 集 。 比 如 ,选择 具有 最 少 属性 个 数 的 最 小 属性 集 。 


8.1.4 粗糙 集 方法 的 规则 获取 


通过 分 析 U 中 的 两 个 划分 C= 二 {E;} 和 D=={Y;}) 之 间 的 关系 ,把 C 视 为 分 类 条 件 ,把 DD 
视 为 分 类 结论 ,可 以 得 到 下 面 的 分 类 规则 : 
(1) 当 E 几 Yj; 关 名 时 , 则 有 : 
rs: Des(E;) —> Des(Y;) (822) 
Des(E;) 和 Des(Y;) 分 别 是 等 价 集 E, 和 等 价 集 Y; 中 的 特征 描述 。 
Q@ 当 Ei 几 Y; 二 Ei(E; 完全 被 Y; 包含 ) 即 下 近似 时 ,建立 的 规则 ri 是 确定 的 ,规则 的 可 
信和 度 cf=1.0。 
@ 当 E. 败 Yj; 关 E;(E; 部 分 被 包含 ) 即 上 近似 
时 ,建立 的 规则 六 是 不 确定 的 ,规则 的 可 信 度 为 
1ENY,I 
| E, | 
(2) 当 EY;== 名 时 (E, 不 被 六 包含 ) ,E; 和 
Y; 不 能 建立 规则 。 


8.1.5 粗糙 集 方法 的 应 用 实例 


通过 实例 说 明 属 性 约 简 和 规则 获取 方法 。 有 表 8. 2 所 示 的 数据 。 
表 8.2 流感 实例 数据 


cf (8. 23) 


图 8.2 E, 和 YY 的 上 、 下 近似 关系 


C( 条 件 属性 ) D( 决 策 属性 ) 
U 头痛 Ca) 肌肉 痛 (6) 体温 (c) 流感 (d) 
四 是 (1) 是 (1) 正常 (0) 否 (0) 
ez 是 (1) 是 (1) 高 (1) 是 (1) 
es 是 (1) 是 (1) 很 高 (2) 是 (1) 
et 否 (0) 是 (1) 正常 (0) 否 (0) 
es 否 (0) 否 (0) 高 (1) 否 (0) 
es 否 (0) 是 (1) 很 高 (2) 是 (1) 
er 是 (1) 否 (0) 高 (1) 是 (1) 
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1. 等 价 集 下 近似 和 依赖 度 的 计算 


(1) 条 件 属性 C(a,6,c) 的 等 价 集 
由 于 各 元 组 (对 象 ) 之 间 不 存在 等 价 关 系 , 每 个 元 组 组 成 一 个 等 价 集 , 共 七 个 : Ei {ei)， 
E, {es} ,Es{es},E,{es},Es{es},Eo{es},E{er}。 
(2) 决策 属性 D(4d) 的 等 价 集 
按 属性 取 值 ,共有 两 个 等 价 集 : Yi: {ei,es es);Ys: {es se3,es se7}。 
(3) 决策 属性 的 各 等 价 集 的 下 近似 集 为 
CY= 1{E,E,,E:} = {e,e,,es)} 
CY, = {E,,E,,E,E:} = {e,,es,e6 ,er} 


此 例 不 存在 上 近似 集 。 
(4) 计算 Pos(C,D) 和 yy(C,D) 
Pes(ODY = CY UO .= (rie ee ee 
PosCC | 人 本 7952CC = 


2. 各 属性 重要 度 计算 


(1) a 的 重要 度 计算 
。 条 件 属性 C(b,c) 的 等 价 集 。 
Ei{eises},E,{es} ,Eles,eso} ,El{es,es} 
。 决策 属性 D(d ) 的 等 价 集 ( 同 上 )。 
。 决策 属性 各 等 价 集 的 下 近似 集 。 
CY= 1{E)= {eve} 
GY = (BE 
。 计算 Pos(C 一 {a},D) 和 7Y(C 一 {a},D)。 
Pos(C—{a},D)= CY, UCY,= {el,es,es,e ee) 
| Pos(C—{a},D) |=5 
7Y(C— {a},D) = 5/7 
。 属性 a 的 重要 程度 。 
SGF(C— {a},D) = 7Y(C,D)—7Y(C— {a},D) 一 2/7 天 0 
。 结论 : 属性 a 是 不 可 省 略 的 。 
(2) 0 的 重要 度 计算 
。 条 件 属性 C(a,c) 的 等 价 集 。 
去 掉 属性 5 后 ,元 组 中 只 出 现 ee 和 ei 的 等 价 ,其 他 元 组 均 不 等 价 ,等 价 集 共 6 个: 
Ei{e},E,{es,er} ,Es{es},E,{es},Es{es},E{ee}., 
。 决策 属性 D(d) 的 等 价 集 ( 同 上 ) 。 
。 决策 属性 的 各 等 价 集 的 下 近似 集 。 
CY = 1{E, E,,Es} = (e,es,es) 
CY;= {E:, Es, Ese} = (e2567 63 566) 
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计算 Pos(C 一 (0},D) 。 
Pos(C— {6},D)= CY, UCTs 一 (eliyezyesyetdye5yebyer7) 
| Pos(C— {58},D) |=7,7(C— {65},D)=1 
属性 2 的 重要 度 。 
SGF(C— {8},D) = 7Y(C,D)—7Y(C— {65},D)=0 
。 结论 : 属性 4b 是 可 省 略 的 。 


3. 简化 数据 表 
在 原 数 据 表 中 删除 肌肉 痛 (5) 属 性 后 ,元 组 e; 和 相同 ,合并 成 表 8. 3 所 示 的 简化 数据 


表 。 
表 8.3 流感 数据 简化 表 
U 头痛 (a) 体温 (c) 流感 (qd) 
a 是 (1) 正常 (0) 否 (0) 
es 是 (1) 高 (1) 是 (1) 
es 是 (1) 很 高 (2) 是 (1) 
el 否 (0) 正常 (0) 否 (0) 
es 否 (0) 高 (1) 否 (0) 
es 否 (0) 很 高 (2) 是 (1) 


4. 等 价 集 、 上 下 近似 集 的 计算 


(1) 条 件 属性 的 等 价 集 

由 于 各 元 组 之 间 不 存在 等 价 关 系 , 故 有 6 个 等 价 集 : Ei{ei);Es{es);Es{es);E{e4); 
Es (es} ;Es {es}, 

(2) 决策 属性 D(4d) 的 等 价 集 

按 属性 取 值 ,共有 两 个 等 价 集 : Yi {ei ,es ,es);Ys {es ,es ,es)。 


5. 获取 规则 


(1) 如 图 8.3 所 示 , 由 于 户 作 Yi 二 Bi,Ei 几 Yi 二 E4,Es 八 Yi 二 Es , 故 有 规则 
rnu: Des(Ei)—>Des(Y1), 即 
a=1Ac=0>d=0, cf=1 


ru: Des(E)—>Des(Y!), 即 Cs ) 
a=0Ne=0=ds0, d= Cs ) 


rai: Des(E’)—>Des(Y!), 即 
三 站 A= 二 0 = Ca ) 
(2) 由 于 EY=Ei,Es 站 Ys 二 Es ,EY 二 Es ,有 
规则 图 8.3 Yi 与 El、El、E; 最 小 包含 图 
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ra : Des(Es)—>Des(Y;s), 即 a=1AMc=1—>d=1,c{f=1。 
ra : Des(Es)—>Des(Y;), 即 a=1AMc=2—>d=1,cf=1。 
res: Des(Es)—>Des(Ys), 即 a=0ANc=2—>d=1,cf=1。 


6. 规则 化 简 


(1) 对 和 ra 进行 合并 ,有 : 
(a=0Va=1)Ac=0>d=0 
其 中 a 的 取 值 包括 了 他 的 全 部 取 值 , 故 属性 a 可 删除 , 即 : 
c=0>d=0 


并 有 2 对 raz 和 re 进行 合并 ,有 : 
(a=1Va=0)Ac=2>d=1 
同样 ,可 删除 属性 a, 得 到 : 


c=2~d=1 


7. 最 后 的 规则 


(1) 体温 = 正常 一 流感 一 否 ( 即 c 一 0 一 4 一 0) 
(2) 头痛 一 否 人 体温 王 高 一 流感 一 否 ( 即 一 0 人 c 一 1 一 cd 一 0) 
(3) 体温 = 很 高 流感 = 是 ( 即 一 2 一 4 一 1) 
(4) 头痛 = 是 人 体温 三 高 一 流感 = 是 ( 即 a==1Ac=1>d=1) 


8.2 K- 均 值 聚 类 


8.2.1 聚 类 方法 简介 
1. 聚 类 方法 


聚 类 (Cluster) 问 题 描 述 为 : 给 定数 据 集合 D, 把 它 划 分 成 一 组 聚 类 .: {C,C: ,…，,Ce)， 
CiED, 使 得 不 同类 中 的 数据 尽 可 能 的 不 相似 (或 距离 较 远 ) ,而 同一 类 中 的 数据 尽 可 能 的 相 
似 ( 或 距离 较 近 )。 如 果 &=1 或 =|1DI1(ID| 表 示 集 合 DD 的 元 素 个 数 ) , 则 称 为 平凡 聚 类 。 

按照 聚 类 结果 来 划分 聚 类 算法 ,分 为 三 种 : 

(1) 覆盖 (Coverage) : 如 果 每 个 对 象 至 少 属于 一 个 聚 类 , 则 称 聚 类 为 覆盖 的 ,否则 为 非 
覆盖 的 ; 

(2) 相交 (Separation) : 如 果 至 少 一 个 对 象 属于 一 个 以 上 的 聚 类 , 则 称 聚 类 为 模糊 的 ， 
反之 ,如 果 任 意 两 个 聚 类 的 交集 为 空 , 则 称 聚 类 是 确定 的 

(3) 结构 (Structure) : 如 果 两 个 聚 类 或 者 不 相交 或 者 其 中 一 个 是 另 一 个 的 子 集 , 则 称 
聚 类 为 层次 的 ,和 否则 为 非 层 次 的 。 

按照 聚 类 的 原理 和 方法 来 划分 聚 类 算法 .也 分 为 三 种 : 

(1) 层次 聚 类 

层次 聚 类 (Hierarchical Clustering) 方 法 递归 地 对 对 象 进 行 合 并 或 者 分 裂 ,直到 满足 某 
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一 终止 条 件 。 层 次 聚 类 的 结果 可 以 用 二 又 树 表示 , 树 中 的 每 个 结 点 都 是 一 个 聚 类 ,下 层 的 聚 
类 是 上 层 聚 类 的 嵌 套 ,每 一 层 结 点 构成 一 组 划分 。 根 据 二 又 树 生成 的 顺序 ,可 以 把 层次 聚 类 
方法 分 为 合并 型 层次 聚 类 和 分 解 型 层次 聚 类 两 种 。 

合并 型 层次 聚 类 从 单 成 员 聚 类 开始 ,把 它们 逐渐 合并 成 更 大 的 聚 类 ,在 每 一 层 中 ,相距 
最 近 的 两 个 聚 类 被 合并 。 相 反 ,分 解 型 层次 聚 类 从 包含 所 有 对 象 的 一 个 聚 类 开始 ,把 它 逐 渐 
分 解 成 更 小 的 聚 类 。 

(2) 划分 聚 类 (Partitional Clustering) 

给 定 聚 类 数目 & 和 目标 函数 下 ,划分 聚 类 算法 把 DD 划分 成 上 个 类 ,使 得 目标 函数 在 此 划 
分 下 达到 最 优 。 划 分 算法 把 聚 类 问题 转化 成 一 个 组 合 优化 问题 ,从 一 个 初始 划分 或 者 一 个 
初始 聚 点 集合 开始 ,利用 迭代 控制 策略 优化 目标 函数 。 

最 常用 的 目标 函数 是 : > min d(xzi,mj) ,其 中 mj 是 C; 的 中 心 (k-means 算法 ) 或 者 是 
Ci 中 离 中 心 最 近 的 一 个 对 象 (k-medoids 算法 ) 。 

K-means(K- 均 值 ) 算 法 是 最 流行 的 聚 类 算法 之 一 。 它 首先 随机 地 选取 & 个 初始 聚 类 中 
心 , 并 把 每 个 对 象 分 配给 离 它 最 近 的 中 心 , 从 而 得 到 一 个 初始 聚 类 。 然 后 ,计算 出 当前 每 个 
聚 类 的 重心 作为 新 的 聚 类 中 心 ,并 把 每 个 对 象 重 新 分 配 到 最 近 的 中 心 。 如 果 新 的 聚 类 的 质 
量 优 于 原先 的 聚 类 , 则 用 新 聚 类 代替 原 聚 类 。 循 环 执行 这 一 过 程 直 至 聚 类 质量 不 再 提高 为 
止 。 后 来 ,许多 变形 算法 都 是 在 基本 k-means 算法 的 基础 上 做 了 改进 。 

(3) 基于 密度 的 聚 类 

以 空间 中 的 一 点 为 中 心 ,单位 体积 内 点 的 个 数 称 为 该 点 的 密度 ,从 直观 来 看 , 聚 类 的 内 
部 点 的 密度 较 大 ,而 聚 类 之 间 点 的 密度 较 小 。 基 于 密度 的 聚 类 (Density-based Clustering) 
根据 空间 密度 的 差别 ,把 具有 相似 密度 的 点 作为 聚 类 。 由 于 密度 是 一 个 局 部 概念 ,因此 这 类 
算法 又 称 为 局 部 聚 类 (Local Clustering) 。 基 于 密度 的 聚 类 通常 只 扫描 一 次 数据 库 , 所 以 又 
称 为 单 次 扫描 聚 类 (Single Scan Clustering ) 。 

对 于 空间 中 的 一 个 对 象 ,如 果 它 在 给 定 半径 Eps 的 邻 域 中 的 对 象 个 数 大 于 某 个 给 定数 
值 Minpts, 则 该 对 象 被 称 为 核心 对 象 (core point) ,否则 称 为 边界 对 象 。 由 一 个 核心 对 象 密 
度 可 达 的 所 有 对 象 构 成 一 个 聚 类 。 

层次 聚 类 和 划分 聚 类 是 最 常用 的 聚 类 方法 。 


2. 相似 度量 方法 


对 象 间 的 距离 或 相似 度 是 聚 类 的 核心 ,常常 按照 对 象 之 间 的 相似 性 进行 划分 ,划分 的 结 
果 使 某 种 表示 聚 类 质量 的 评价 函数 最 优 。 数 据 的 类 型 不 同 ,相似 性 的 含义 也 不 同 。 例 如 在 
数值 型 数据 库 中 ,两 个 对 象 的 相似 度 是 指 它们 在 几何 空间 中 互相 邻近 的 程度 ;在 分 类 型 数据 
库 中 ,两 个 对 象 的 相似 性 是 指 它们 在 同一 个 属性 上 取 值 相同 : 在 交易 型 数据 库 中 ,两 个 交易 
相似 是 指 它们 包含 相同 的 数据 项 。 

聚 类 可 以 分 为 两 类 : 对 对 象 聚 类 称 为 Q 型 聚 类 ,往往 用 距离 或 相似 系数 来 度量 相似 性 ; 
对 属性 聚 类 称 为 R 型 聚 类 时 , 常 根 据 相关 系数 或 关联 系数 来 度量 相似 性 。 

(1) 对 象 的 距离 

假设 每 个 对 象 有 mm 个 属性 ,可 以 把 一 个 对 象 视 为 m 维 空间 的 一 个 点 ,n 个 对 象 就 是 m 
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维 空间 中 的 n 个 点 。 从 直观 上 看 ,属于 同一 类 的 对 象 在 空间 中 应 该 互相 靠近 ,而 不 同类 的 对 
象 之 间 的 距离 要 大 得 多 ,很 自然 地 想到 用 它们 之 间 的 距离 来 衡量 它们 之 间 的 相似 程度 。 距 
离 越 小 ,对 象 间 的 相似 性 越 大 。 

在 聚 类 分 析 中 ,常用 的 距离 公式 有 : 

。 明 考 夫 斯 基 (Minkowski) 距 离 : 


。 曼哈顿 (Manhattan) 距 离 : 


。 欧 氏 (Euclidean) 距 离 : 
di; = (区 | = 上 六 


其 中 最 常用 的 是 欧 氏 距离 ,对 坐标 系 进行 平移 和 旋转 变换 之 后 , 欧 氏 距离 保持 不 变 。 
(2) 对 象 的 相似 系数 
相似 系数 与 距离 相反 ,相似 系数 越 大 ,对 象 间 的 相似 性 越 大 。X;、X; 的 相似 系数 r; 有: 


。 最 大 最 小 法 : 
Sn » TA ) 
Rel 


加 
Iax(Zz si) 


k=1 


ry 一 


。 算 术 平 均 最 小 法 : 


m 
> min(za ,TH ) 
nt 


。 夹 角 余弦 法 : 


8.2.2 KK- 均 值 聚 类 方法 与 实例 


1，K- 均 值 聚 类 方法 
K- 均 值 方法 是 一 种 常用 的 基于 划分 的 聚 类 方法 , 它 根据 最 终 分 类 的 个 数 随机 地 选取 
个 初始 的 聚 类 中 心 , 不 断 地 选 代 , 直 到 达到 目标 函数 的 最 小 值 , 即 得 到 最 终 的 聚 类 结果 。 
其 中 ,目标 函数 通常 采用 平方 误差 准则 , 即 ; 
E= 2 2 1p—ml 
i=1 pEC; 


i 汉 


其 中 ,EE 表示 所 有 聚 类 对 象 的 平方 误差 的 和 ,p 是 聚 类 对 象 ,m; 是 类 C; 的 各 聚 类 对 象 (样本 ) 
的 平均 值 , 即 : 


PEC; 


Gl 


mi 一 


其 中 ,|C; | 表示 类 C; 的 聚 类 对 象 的 数目 。 

因为 在 每 一 次 欠 代 中 ,每 一 个 点 都 要 计算 和 各 聚 类 中 心 的 距离 ,并 将 距离 最 近 的 类 作为 
该 点 所 属 的 类 ,所 以 -均值 方法 的 算法 复杂 度 为 O(knt) ,其 中 表示 聚 类 数 ,n 表示 结 点 
数 ,t 是 迭代 次 数 。& 的 典型 取 值 是 2 一 10。 

K- 均 值 方法 是 解决 聚 类 问题 的 一 种 经 典 算 法 , 它 是 一 种 爬山 式 的 搜索 算法 。 这 种 算法 
简单 .快速 。 然 而 ,K- 均 值 方法 对 初 值 敏感 ,对 于 不 同 的 初始 值 ,可 能 会 导致 不 同 的 聚 类 结 
果 。 此 外 ,K- 均 值 算法 是 基于 梯度 下 降 的 算法 ,由 于 目标 函数 局 部 极 小 值 点 的 存在 ,以 及 算 
法 的 贪心 性 ,因此 算法 可 能 会 陷入 局 部 最 优 , 而 无 法 达到 全 局 最 优 。 


2.K- 均 值 聚 类 方法 实例 


假设 给 定 如 下 要 进行 聚 类 的 元 组 ， 

(24 L032 20730 T1125} 

并 假设 k= 二 2。 初 始 时 用 前 两 个 数值 作为 类 的 均值 : wm 二 2 和 wm 二 4。 利 用 欧 几 里 得 距 
离 , 可 得 Ki 二 {2,3) 和 Ks 二 {4,10,12,20,30,11,25}。 数 值 3 与 两 个 均值 的 距离 相等 ,所 
以 任意 地 选择 K, 作为 其 所 属 的 类 。 再 计算 两 个 类 的 均值 可 得 二 2.5 和 ms 二 16。 重 新 
对 类 中 的 成 员 进 行 分 配 可 得 Ki 二 {2,3,4} 和 Ks 二 {10,12,20,30,11,25}。 不 断 重复 这 个 过 
程 可 得 : 


mm mz Ki K; 
3 18 {2,3,4,10} {12,20,30,11,25} 
4.5 19.6 {2,3,4,10,11,12} {20,30,25} 
7 25 {2,3,4,10,11,12} {20,30,25} 


注意 在 最 后 两 步 中 ,类 的 成 员 是 一 致 的 。 再 往 下 循环 均值 不 会 再 改变 ,因此 ,该 问题 的 
答案 为 Ki 二 {2,3,4,10,11,12} 和 K, 二 {20,30,25})。 

虽然 KK- 均值 算法 产生 的 结果 通常 都 不 错 , 但 在 时 间 上 并 非 高 效 ,并 且 不 具有 很 好 的 可 
伸缩 性 。 从 上 一 步 到 下 一 步 的 迭代 过 程 中 ,通过 存储 距离 信息 ,可 以 减少 一 些 必须 进行 的 距 
离 计 算 的 实际 次 数 。 


8.3 关联 规则 挖掘 


关联 规则 (Association Rule) 挖 掘 是 发 现 大 量 数 据 库 中 项 集 之 间 的 关联 关系 。 随 着 大 
量 数据 的 增加 和 存储 ,许多 人 士 对 于 从 数据 库 中 挖掘 关联 规则 越 来 越 感 兴趣 。 从 大 量 商业 
事务 中 发 现 有 趣 的 关联 关系 ,可 以 帮助 许多 商业 决策 的 制定 ,如 分 类 设计 、 交 又 购 物 等 。 
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目前 ,关联 规则 挖掘 已 经 成 为 数据 挖掘 领域 重要 的 研究 方向 。 关 联 规则 模式 属于 描述 
型 模式 ,发 现 关联 规则 的 算法 属于 无 监督 学 习 的 方法 。 

Agrawal 等 于 1993 年 首先 提出 了 挖掘 顾客 交易 数据 库 中 项 集 间 的 关联 规则 问题 ,以 后 
诸多 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 大 量 的 研究 。 他 们 的 工作 包括 对 原 有 的 算法 进 
行 优化 ,如 引入 随机 采样 .并 行 的 思想 等 ,以 提高 算法 挖掘 规则 的 效率 ;对 关联 规则 的 应 用 进 
行 推广 。 

最 近 也 有 独立 于 Agrawal 的 频繁 集 方法 的 工作 ,以 克服 频繁 集 方法 的 一 些 缺 陷 , 探 索 
挖掘 关联 规则 的 新 方法 。 同 时 随 着 OLAP 技术 的 成 熟 和 应 用 ,将 OLAP 和 关联 规则 结合 也 
成 了 一 个 重要 的 方向 。 也 有 一 些 工作 注重 于 对 挖掘 到 的 模式 的 价值 进行 评估 ,他 们 提出 的 
模型 建议 了 一 些 值 得 考虑 的 研究 方向 。 

本 章 主要 给 出 了 关联 规则 挖掘 的 基本 概念 、 核 心 挖 掘 算法 。 


8.3.1 关联 规则 的 挖掘 原理 


关联 规则 是 发 现 交 易 数据 库 中 不 同 商品 (项 ) 之 间 的 联系 ,这 些 规 则 找 出 顾客 购买 行为 
模式 ,如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 。 发 现 这 样 的 规则 可 以 应 用 于 商品 货架 设 
计 、 货 存 安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 现 实 中 ,这 样 的 例子 很 多 。 最 典型 的 例子 
是 超级 市 场 利 用 前 端 收 款 机 收集 存储 了 大 量 的 售 货 数 据 , 这 些 数据 是 一 条 条 的 购买 事务 记 
录 , 每 条 记录 存储 了 事务 处 理 时 间 ,顾客 购买 的 物品 .物品 的 数量 及 金额 等 。 这 些 数据 中 常 
常 隐 含 形式 如 下 的 关联 规则 : 

在 购买 铁 锤 的 顾客 当中 ,有 70% 的 人 同时 购买 了 铁 钉 。 

这 些 关联 规则 很 有 价值 ,商场 管理 人 员 可 以 根据 这 些 关 联 规则 更 好 地 规划 商场 ,如 把 铁 
锤 和 铁 钉 这 样 的 商品 摆 放 在 一 起 ,就 能 够 促进 销售 。 

有 些 数据 不 像 售 货 数据 那样 很 容易 就 能 看 出 一 个 事务 是 许多 物品 的 集合 ,但 稍微 转换 
一 下 思考 角度 ,仍然 可 以 像 售 货 数 据 一 样 处 理 。 比 如 和 人寿 保险 ,一 份 保单 就 是 一 个 事务 。 保 
险 公 司 在 接受 保险 前 ,往往 需要 记录 投保 人 详尽 的 信息 ,有 时 还 需要 投保 人 到 医院 做 身体 检 
查 。 保 单 上 记录 有 投保 人 的 年 龄 ,性别 ,健康 状况 .工作 单位 .工作 地 址 .工资 水 平等 。 

这 些 投 保 人 的 个 人 信息 就 可 以 看 做 事务 中 的 物品 。 通 过 分 析 这 些 数据 ,可 以 得 到 类 似 
以 下 这 样 的 关联 规则 : 

年 龄 在 40 岁 以 上 ,工作 在 A 区 的 投保 人 当中 ,有 45% 的 人 曾经 向 保险 公司 索赔 过 。 在 

这 条 规则 中 ,年 龄 在 40 岁 以 上 "是 物品 甲 , “工作 在 A 区 "是 物品 乙 ,“ 向 保险 公司 索赔 过 ” 

则 是 物品 两 。 可 以 看 出 ,A 区 可 能 污染 比较 严重 ,环境 比较 差 , 导 致 工作 在 该 区 的 人 健康 状 
况 不 好 ,索赔 率 也 相对 比较 高 。 


1. 基本 原理 


设 [一 位 人 ,……,i} 是 项 (Item) 的 集合 。 记 D 为 事务 (Transaction) 的 集合 (事务 数据 
库 ), 事 务工 是 项 的 集合 ,并 且 TST。 对 每 一 个 事务 有 唯一 的 标识 ,如 事务 号 , 记 作 TID。 
设 A 是 I 中 一 个 项 集 , 如 果 AST, 那 么 称 事务 工 包 含 A。 
定义 1 关联 规则 是 形 如 A 一 B 的 蕴涵 式 , 这 里 ACI,BCI, 并 且 ANB=2。 
* 泛 


定义 2 规则 的 支持 度 。 
规则 A 一 B 在 数据 库 D 中 具有 支持 度 S ,表示 S 是 了 中 事务 同时 包含 AB 的 百分比 ， 
它 是 概率 P(AB), 即 : 


| AB | 
ID| 


其 中 1D| 表 示 事 务 数据 库 D 的 个 数 ,|AB| 表 示 A、B 两 个 项 集 同时 发 生 的 事务 个 数 。 
定义 3 规则 的 可 信和 度 。 
规则 A 一 B 具有 可 信和 度 C ,表示 C 是 包含 A 项 集 的 同时 也 包含 B 项 集 ,相对 于 包含 A 
项 集 的 百分比 ,这 是 条 件 概率 P(B|A), 即 : 


C(A—>B)=P(B|A)= 


其 中 |A| 表 示 数 据 库 中 包含 项 集 A 的 事务 个 数 。 

定义 4 效 值 。 

为 了 在 事务 数据 库 中 找 出 有 用 的 关联 规则 ,需要 由 用 户 确 定 两 个 阔 值 : 最 小 支持 度 
(min_sup) 和 最 小 可 信和 度 (min_conf)。 

定义 5 项 的 集合 称 为 项 集 (Itemset) ,包含 k 个 项 的 项 集 称 之 为 K- 项 集 。 如 果 项 集 满 
足 最 小 支持 度 , 则 它 称 为 频繁 项 集 (Frequent Itemset)。 

定义 6 关联 规则 。 

同时 满足 最 小 支持 度 (min_sup) 和 最 小 可 信和 度 (min_conf) 的 规则 称 之 为 关联 规则 ， 
即 SCA 一 B) 二 min_sup 且 C(A 一 B) 二 min_conf 成 立时 ,规则 A 一 B 称 为 关联 规则 ,也 可 以 
称 为 强 关联 规则 。 


2. 关联 规则 挖掘 过 程 


关联 规则 的 挖掘 一 般 分 为 两 个 过 程 : 

(1) 找 出 所 有 的 频繁 项 集 : 根据 定义 ,这 些 项 集 的 支持 度 应 该 满足 最 小 支持 度 。 

(2) 由 频繁 项 集 产 生 关 联 规则 : 根据 定义 ,这 些 规则 必须 满足 最 小 支持 度 和 最 小 可 
信和 度 。 

在 这 两 步 中 ,第 二 步 是 在 第 一 步 的 基础 上 进行 的 ,工作 量 非常 小 。 挖 掘 关 联 规则 的 总 体 
性 能 由 第 一 步 决定 。 


3. 关联 规则 的 兴趣 度 


关联 规则 主要 是 考虑 同时 购买 商品 的 事务 的 相关 性 。 对 于 不 购买 商品 的 事务 与 购买 商 
品 的 事务 的 关系 的 研究 ,需要 引入 兴趣 度 概念 。 
先 通过 一 个 具体 的 例子 说 明 不 购买 商品 与 购买 商品 的 关系 。 设 I 二 (咖啡 ,牛奶 ) ,交易 
集 也 ,经 过 对 DD 的 分 析 , 得 到 如 表 8.4 所 示 的 表格 。 
由 表 8.4 可 以 了 解 到 如 果 设 定 minsupp 一 0. 2,minconf 一 0. 6, 按 照 现 有 的 挖掘 算法 就 
可 以 得 到 如 下 关联 规则 。 
买 牛奶 一 买 咖啡 一 0.2 c=0.8 (8. 26) 


S(A—B)= P(AB)= 


(8.24) 


| 4B | 
14| 


(8.25) 
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表 8.4 交易 集 的 分 析 


买 咖 啡 不 买 咖 啡 合 计 
买 牛奶 20 5 25 
不 买 牛奶 70 此 75 
合计 90 10 100 


即 80% 的 人 买 了 牛奶 就 会 买 咖啡 。 这 一 点 从 人 逻辑 上 看 是 完全 合理 正确 的 。 

但 从 表 中 ,我 们 同时 也 可 以 毫 不 费 神 的 得 到 结论 : 90% 的 人 肯定 会 买 咖 啡 。 换 句 话说 ， 
买 牛 奶 这 个 事件 对 于 买 咖啡 这 个 事件 的 刺激 作用 (80%) 并 没有 想象 中 的 (90%) 那 么 大 。 反 
而 是 规则 

买 咖啡 一 不 买 牛奶 = 一 0.7 c 王 0.78 
的 支持 度 和 可 信 度 分 别 为 0.7 和 0.78, 更 具有 商业 销售 的 指导 意义 。 

从 上 面 这 个 例子 中 可 以 发 现 ,目前 基于 支持 度 一 可 信和 度 的 关联 规则 的 评估 体系 存在 着 
问题 ;同时 , 现 有 的 挖掘 算法 只 能 挖掘 出 类 似 于 式 (8. 27) 的 规则 ,而 对 类 似 式 (8. 28) 的 带 有 
类 似 于 “不 买 牛奶 ”之 类 的 负 属 性 项 的 规则 却 无 能 为 力 ,而 这 种 知识 往往 具有 更 重要 的 价值 。 
国内 外 围绕 这 个 问题 展开 了 许多 研究 。 引 入 兴趣 度 概 念 ,分 析 项 集 A 与 项 集 B 的 关系 程度 。 

定义 7 兴趣 度 为 


(8..27) 


P(AB) 
P(A)P(B) 


公式 (8. 29) 反 映 了 项 集 A 与 项 集 B 的 相关 程度 。 若 
I(A 一 B)= 二 1， 即 P(AB) = P(A)P(B) 
表示 项 集 A 出 现 和 项 集 B 是 相互 独立 的 。 若 
TI(A 一 B) 一 1 
表示 A 出 现 和 B 出 现 是 负 相关 的 。 若 
I(A—>B)>1 

表示 A 出 现 和 B 出 现 是 正 相 关 的 。 意 味 着 A 的 出 现 蕴 含 B 的 出 现 。 

在 兴趣 度 的 使 用 中 ,一 条 规则 的 兴趣 度 越 大 于 1 说 明 我 们 对 这 条 规则 越 感 兴趣 ( 即 其 实 
际 利 用 价值 越 大 ) ;一 条 规则 的 兴趣 度 越 小 于 1 说 明 我 们 对 这 条 规则 的 反面 规则 越 感 兴趣 
〈 即 其 反面 规则 的 实际 利用 价值 越 大 ) ;显然 ,兴趣 度 工 不 小 于 0。 

下 面 从 兴趣 度 的 角度 来 看 一 下 前 面 那个 牛奶 与 咖啡 的 例子 。 
描述 及 其 对 应 的 支持 度 .可 信 度 和 兴趣 度 , 如 表 8.5 所 示 。 

表 8.5 所 有 可 能 的 关联 规则 


Rules S Cc 


T(A 一 也 ) 一 (8. 28) 


我 们 列 出 所 有 可 能 的 规则 


1 买 牛奶 一 买 咖啡 2 0.8 0. 89 
2 买 咖啡 一 买 牛奶 0.2 0:.22 0. 89 
3 买 牛奶 一 不 买 咖啡 0.05 0:2 
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Rules S 时 I 
4 不 买 咖啡 一 买 牛奶 0.05 0.5 2 
5 不 买 牛奶 一 买 咖啡 0.7 0.93 1.037 
6 买 咖啡 一 不 买 牛 奶 0.7 0.78 1.037 
8 不 买 牛 奶 一 不 买 咖啡 0.05 0.067 0.67 
8 不 买 咖啡 一 不 买 牛奶 0.05 0.2 0. 87 


在 此 只 考虑 第 1.2.3.6 共 4 条 规则 。 由 于 荆 , 1 二 1, 因 此 在 实际 中 它 的 价值 不 大 ;1,， 
过 1 都 可 以 列 人 进一步 考虑 的 范围 。 
公式 (8. 29) 等 价 于 


CA B) = PAB) ECB1A) 


P(A)P(B) P(B) 

有 人 称 公式 (8. 30) 为 作用 度 (Lift) ,表示 关联 规则 A 一 B 的 “提升 "。 如 果 作 用 度 ( 兴 趣 
度 ) 不 大 于 1, 则 此 关联 规则 就 没有 意义 了 。 

概括 地 说 : 可 信和 度 是 对 关联 规则 地 准确 度 的 衡量 。 支 持 度 是 对 关联 规则 重要 性 的 衡 
量 。 支 持 度 说 明了 这 条 规则 在 所 有 事务 中 有 多 大 的 代表 性 ,显然 支持 度 越 大 ,关联 规则 越 重 
要 。 有 些 关联 规则 可 信和 度 虽 然 很 高 ,但 支持 度 却 很 低 , 说 明 该 关联 规则 实用 的 机 会 很 小 , 因 
此 也 不 重要 。 

兴趣 度 ( 作 用 度 ) 描 述 了 项 集 A 对 项 集 B 的 影响 力 的 大 小 。 兴 趣 度 (作用 度 ) 越 大 ,说 明 
项 集 B 受 项 集 A 的 影响 越 大 。 


8.3.2 Apriori 算法 基本 思想 


Agrawal 等 设计 了 基于 频繁 集 理论 的 Apriori 算法 。Apriori 是 挖掘 关联 规则 的 一 个 重 
要 方法 。 这 是 一 个 基于 两 阶段 频繁 集 思 想 的 方法 ,将 关联 规则 挖掘 算法 的 设计 分 解 为 两 个 
子 问题 ， 

。 找到 所 有 支持 度 大 于 最 小 支持 度 的 项 集 (Itemset), 这 些 项 集 称 为 频繁 项 集 

(Frequent Itemset) 。 

。 使 用 第 1 步 找到 的 频繁 项 集 产 生 期 望 的 规则 。 

Apriori 使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 ,“K- 项 集 ”" 用 于 探索 “K 十 1- 项 集 ”。 

首先 , 找 出 频繁 "1- 项 集 ? 的 集合 。 该 集合 记 作 Li。Li 用 于 找 频 繁 “2- 项 集 ” 的 集合 L;， 
而 L 用 于 找 L;, 如 此 下 去 ,直到 不 能 找到 “K- 项 集 ” 为 止 。 找 每 个 Lk 需要 一 次 数据 库 
扫描 。 


1. Apriori 性 质 


性 质 : 频繁 项 集 的 所 有 非 空子 集 都 必须 也 是 频繁 的 。 
该 性 质 表明 ,如果 项 集 B 不 满足 最 小 支持 度 闵 值 min-sup, 则 B 不 是 频繁 的 , 即 P(B) 
去 min-sup。 如 果 项 A 添加 到 B, 则 结果 项 集 ( 即 BU A) 不 可 能 比 B 更 频繁 地 出 现 。 因 此 ， 
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BUA 也 不 是 频繁 的 , 即 PCBUA) 一 min-sup。 
Apriori 性 质 可 用 于 压缩 搜索 空间 。 


2.“K- 项 集 " 产 生 “K 十 1- 项 集 ” 


设 KK- 项 集 Lk,K 十 1- 项 集 Lk+1 ,产生 Lk+1 的 候选 集 Ck+: 。 有 公式 : 
Caen = LeXLz= (XUY, 基 X,YE Le | XY|=K+Y} 
其 中 C 是 1- 项 集 的 集合 , 取 自 所 有 事务 中 的 单项 元 素 。 
如 Li 二 {1{A},{B)} 
Cz={A}U{B}={A,B}, 有 |AB|=2 
E;,= AB AAC 
Cs={A,B}U{A,C}={A,B,C}, 有 |ABC|=3 


3， Apriori 算法 中 候选 项 集 与 频繁 项 集 的 产生 实例 


有 表 8.6 所 示 的 事务 数据 库 ,Apriori 算法 步骤 如 下 : 
对 于 下 述 例 子 的 事务 数据 库 产生 频繁 项 集 。 


表 8.6 事务 数据 库 例 


事务 ID 事务 的 项 目 集 事务 ID 事务 的 项 目 集 
T A,.B.E Ts B,C 
T: B.D T A:C 
Ts B,C Ts A,B,.C,E 
T, A.B.D Ts A,B,C 
hs A.C 


(1) 在 算法 的 第 一 次 迭代 ,每 个 项 都 是 候选 1- 项 集 的 集合 Ci 的 成 员 。 算 法 扫描 所 有 的 
事务 ,对 每 个 项 的 出 现 次 数 计数 , 见 图 8. 4 中 第 1 列 。 

(2) 假定 最 小 事务 支持 计数 为 2( 即 min-sup 二 2/9 二 22%), 可 以 确定 频繁 1- 项 集 的 集 
合 Li。 它 由 具有 最 小 支持 度 的 候选 1- 项 集 组 成 , 见 图 8.4 中 第 2 列 。 

(3) 为 发 现 频繁 2- 项 集 的 集合 工 ;, ,算法 使 用 Li XL 来 产生 候选 集 Cs, 见 图 8. 4 中 第 
3 列 。 

(4) 扫描 DD 中 事务 ,计算 C* 中 每 个 候选 项 集 的 支持 度 计数 ,如 图 8. 4 中 的 第 4 列 。 

(5) 确定 频繁 2- 项 集 的 集合 L;, 它 由 具有 最 小 支持 度 的 C 中 的 候选 2- 项 集 组 成 , 见 
图 8.4 的 第 5 列 。 

(6) 候选 3- 项 集 的 集合 Cs 的 产生 , 仍 按 (3) 进 行 。 得 到 候选 集 : 

GC = {AB,C}, {A BE}, AC,E}, {BC DY {BC EY, {BDEY) 

按 Apriori 性 质 , 频 繁 项 集 的 所 有 子 集 必须 是 频繁 的 。 由 于 {A,D},{C,D},{C,E}， 
{DD,E} 不 是 频繁 项 集 , 故 C; 中 后 4 个 候选 不 可 能 是 频繁 的 ,在 C, 中 删除 它们 , 见 图 8.4 中 
第 6 列 。 
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扫描 DD 中 的 事务 ,对 Cs 中 的 候选 项 集 计 算 支持 度 计 数 , 见 图 8.4 第 7 列 。 

(7) 确定 工 ; , 它 由 具有 最 小 支持 度 的 Cs 中 候选 3- 项 集 组 成 , 见 图 8.4 中 的 第 8 列 。 

(8) 按 公式 产生 候选 4- 项 集 的 集合 C, ,产生 结果 {A,B,C,E) ,这 个 项 集 被 剪 去 ,因为 它 的 
子 集 {B,C, 忆 } 不 是 频繁 的 。 这 样 L, 二 名 ,此 算法 终止 。Ls 是 最 大 的 频繁 项 集 , 即 {A,B,C} 和 
{4A,B,E}, 

具体 产生 过 程 用 图 表示 如 图 8. 4 所 示 。 


Ci 候选 集 几 频 繁 1- 项 集 CC 候选 集 Cs 候选 集 
mk | 半数 | 项 | 
A 本 丰 
。 比较 4 产生 C [2 | 计算 | 和 S| 4 
支持 度 为 起 支持 度 py 4 
e 6 [4 6 A,D A,D 1 
D 2 D 2 AE A4E 和 
E 2 E 2 BC BC 4 
B,D B,D 汉 
BE BE 2 
CD tw 0 
CE 1 1 
BE DE 0 
六 频繁 2- 项 集 
项 集 | 支持 度 
ee CI 候选 集 亡 频 繁 3- 项 集 
支持 度 支持 度 
计算 | cl 4 | 7 生 .| 项 集 | 计算 .| 天 入 | 计数 | 到 | 计数 
支持 度 | 45| 2 6 Fe 支持 度 | 46C| 2 4BC| 2 
BC 4 ABE [4BE 2 A,B,E 2 
六 二 名 
BE 4 
图 8.4 候选 集 与 频繁 项 集 的 产生 
4. 产生 关联 规则 


由 频繁 项 集 产生 关联 规则 的 工作 相对 简单 一 点 。 根 据 前 面 提 到 的 可 信 度 的 定义 ,关联 
规则 的 产生 如 下 : 
(1) 对 于 每 个 频繁 项 集 工 ,产生 工 的 所 有 非 空子 集 ; 


(2) 对 于 工 的 每 个 非 空子 集 S ,如 果 上 | min_conf, 则 答 出 规则 *S-L 一 S"。 


说 明 : L-S 表示 在 项 集 工 中 除去 S 子 集 的 项 集 。|L| 和 |S| 表 示 项 集 L 和 S 的 在 事务 
项 目 集中 的 计数 。 
由 于 规则 由 频繁 项 目 集 产生 ,因此 每 个 规则 都 自动 满足 最 小 支持 度 。 
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在 表 8. 16 事务 数据 库 中 ,频繁 项 集 工 王 {4A,B, 尼 ) ,可 以 由 工 产 生 哪 些 关联 规则 ? 
工 的 非 空 子 集 S 有 {A, B}, {A, E)，{B, E}, {A}, {B},{E}。 可 得 到 关联 规则 如 下 : 
ANMB>E d=2/4=50% 
AAE-~B df=2/2=100% 
BMAE>A df=2/2=100% 
A 一 BA df=2/6=33% 
B>AAME df=2/7=29% 
E>AAMB df=2/2=100% 
假设 最 小 可 信 度 为 60% , 则 最 终 输 出 的 关联 规则 为 
AAE—>B 100% 
BAE—>A 100% 
E—~AAB 100% 
对 于 频繁 项 集 {A,B,C} ,同样 可 得 其 他 关联 规则 。 


8.3.3 Apriori 算法 程序 


为 了 生成 所 有 频繁 集 ,使 用 了 递 推 的 方法 。 程 序 包 括 apriori-gen 子 程序 产生 候选 , 完 
成 连接 和 前 枝 。has_infrequent_subset 子 程序 完成 非 频繁 子 集 的 测试 。 生 成 所 有 频繁 项 集 
的 Apriori 算法 程序 如 下 : 


了 = {1- itemsets}; 
for (2; I 1D; K++) 
begin 
G=apriori gen(Ix 1 ,min sup); // 新 的 候选 集 
for all transactions tE D do 
begin 
CG= subset (G: ,t); /事务 t 中 包含 的 候选 集 
for all candidates cEC. do 
CCOUnt+ 十 7 
end 
= {cE G |c.comt>=min sup} 
end 
Mmswer= U Ix; 


Prooedure apriori gen( Ix; ,min sup) 
G=® 
for each itemset 1 E Ix 1 
for each itemset Li E Le， 
i£[1=4[1) A [3=2[3) A A QR-2=L[K-2) A 
(BLK-1<B[K-1) 


cl joinl 
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if has infrequent subset (c, Ix 1) 
Gelete Cc; 
else addctoG; 
end 
retum Gs; 


Procedure has infrequent subset (c, Ix 1) 
for each (K- 1)- subset s of c 
证 s¢ Ix :then 
retum TRUE; 
retum FALSE; 


首先 产生 频繁 1- 项 集 Li ,然后 是 频繁 2- 项 集 L, ,直到 有 某 个 7 值 使 得 L, 为 空 ,算法 停 
止 。 这 里 在 第 次 循环 中 ,过 程 先 产生 候选 K- 项 集 的 集合 Cx ,Cx 中 的 每 一 个 项 集 是 对 两 
个 只 有 一 个 项 不 同 的 属于 Lx-1 的 频繁 集 做 一 个 连接 来 产生 的 。Ck 中 的 项 集 是 用 来 产生 频 
繁 集 的 候选 集 ,最 后 的 频繁 集 Lk 必须 是 Cxk 的 一 个 子 集 。Cx 中 的 每 个 元 素 需 在 交易 数据 
库 中 进行 验证 来 决定 其 是 否 加 入 Lx ,这 里 的 验证 过 程 是 算法 性 能 的 一 个 瓶颈 。 这 个 方法 要 
求 多 次 扫描 可 能 很 大 的 交易 数据 库 , 即 如 果 频 繁 集 最 多 包含 10 个 项 ,那么 就 需要 扫描 交易 
数据 库 10 遍 , 这 需要 很 大 的 I/O 负载 。 

Agrawal 等 引入 了 修剪 技术 来 减 小 候选 集 Ck 的 大 小 ,由 此 可 以 显著 地 改进 生成 所 有 
频繁 集 算法 的 性 能 。 算 法 中 引入 的 修剪 策略 基于 Apriori 性 质 : 一 个 项 集 是 频繁 集 当 且 仅 
当 它 的 所 有 子 集 都 是 频繁 集 。 那 么 ,如 果 Ck 中 某 个 候选 项 集 有 一 个 (K 一 1)- 子 集 不 属于 
工 k-i, 则 这 个 项 集 可 以 被 修剪 掉 不 再 被 考虑 ,这 个 修剪 过 程 可 以 降低 计算 所 有 的 候选 集 的 
支持 度 的 代价 。J. Kleinberg 在 文中 ,还 引入 Hash 树 (Hash Tree) 方 法 来 有 效 地 计算 每 个 
项 集 的 支持 度 。 


8.3.4 ”基于 FP-tree 的 关联 规则 挖掘 算法 


Apriori 算法 存在 一 些 固有 的 缺陷 : 

。 可 能 会 产生 大 量 的 候选 集 。 当 长 度 为 1 的 频繁 集 有 10 000 个 的 时 候 ,长 度 为 2 的 候 
选集 个 数 将 会 超过 10M。 还 有 就 是 如 果 要 生成 一 个 很 长 的 规则 的 时 候 , 要 产生 的 中 
间 元 素 也 是 巨大 的 。 

。 必须 多 次 重复 扫描 数据 库 , 对 候选 集 进行 模式 匹配 ,因此 效率 低下 。 

Jiawei Han 等 人 提出 了 一 种 基于 FP- 树 的 关联 规则 挖掘 算法 FP_growth, 它 采取 “分 而 
治之 ”的 策略 ,将 提供 频繁 项 目 集 的 数据 库 压缩 成 一 棵 频繁 模式 树 (FP- 树 ) ,但 是 仍然 保留 
了 项 集 关 联 信息 ,然后 ,将 这 种 压缩 后 的 数据 库 分 成 一 组 条 件数 据 库 , 并 分 别 挖掘 每 个 数据 
库 。 理 论 和 实验 表明 该 算法 优 于 Apriori 算法 。 


1. 算法 描述 


算法 FP_growth 将 发 现 所 有 的 频繁 项 目 集 的 过 程 分 为 以 下 两 步 : 构造 频繁 模式 树 FP- 
树 ;调用 FP_growth 挖掘 出 所 有 的 频繁 项 目 集 。 在 FP- 树 中 ,每 个 结 点 由 三 个 域 组 成 : 项 目 
。 180 。 


名 称 item_name、 结 点 计数 count 和 结 点 链 ( 指 针 )。 另 外 ,为 了 方便 树 的 遍历 ,利用 频繁 项 
集 Li(1- 项 集 ) ,并 增加 “ 结 点 链 ”, 通 过 结 点 链 指向 该 项 目 在 树 中 的 出 现 , 即 结 点 链 头 head， 
指向 FP- 树 中 与 之 名 称 相同 的 第 一 个 结 点 。 

下 面 仍 利用 上 例 事务 数据 库 来 说 明 FP- 树 的 构造 过 程 和 频繁 模式 挖掘 过 程 。 

(1) FP- 树 构造 过 程 

数据 库 的 第 一 次 扫描 与 Apriori 相同 , 它 导 出 频繁 项 (1- 项 集 ) 的 集合 ,并 得 到 它们 的 支 
持 度 计数 。 设 最 小 支持 度 为 2, 频 繁 项 的 集合 按 支 持 度 计数 的 递减 顺序 排序 ,结果 表 记 为 
L。 这 样 就 有 : 


b= {BTA 6 C6 Di WE: 

FP- 树 构造 如 下 : 首先 ,创建 树 的 根 结 点 ,用 null 标记 。 第 二 次 扫描 事务 数据 库 。 每 个 
事务 中 的 项 按 工 中 的 次 序 处 理 ( 即 按 递 减 支持 度 计数 排序 ) 并 对 每 个 事务 创建 一 个 分 支 。 

例如 ,第 一 个 事务 *T,: A,B,E”, 按 工 的 次序 包括 三 个 项 {B,A,E}) ,导致 构造 树 的 第 一 
个 分 支 二 B: 1,A: 1,E: 1>。 该 分 支 具有 三 个 结 点 ,其 中 B 作 根 结 点 的 子 链接 ,A 链接 到 
B ,EE 链接 到 A。 从 工 表 中 结 点 链 中 ,项 B,A,E 的 指针 分 别 指向 树 中 B、A\E 结 点 。 

第 二 个 事务 “Ts : B,D” 按 工 的 次 序 也 是 {B,D} 仍 以 B 开头 ,这 样 在 B 结 点 中 产生 一 个 
分 支 ,该 分 支 与 T 项 集 存在 路 径 共享 前 级 B。 这 样 ,将 结 点 B 的 计数 增加 1, 即 (B: 2) ,并 
创造 一 个 DD 的 新 结 点 (D: 1) ,作为 (B: 2) 的 子 链接 。 

第 三 个 事务 “T; : B,C” 同 第 二 个 事务 一 样 处 理 ,因为 有 相同 的 B 为 头 ,在 B 结 点 又 产 
生 一 个 分 支 , 产 生 新 结 点 , 记 为 (C: 1), 结 点 B 的 计数 再 增加 1( 为 3), 即 (B: 3)。 

第 四 个 事务 “T,: A,B,D”, 按 工 的 次 序 为 {B,A,D}。 在 FP- 树 中 B,A, 已 有 结 点 ,将 共 
享 前 级 路 径 , 从 A 结 点 分 支 产生 DD 的 另 一 新 结 点 , 记 为 (D: 1) ,共享 结 点 B,A 的 计数 均 增 
加 1, 即 (B: 4),(A: 2)。 此 (D: 1) 结 点 用 指针 指向 前 面 产生 的 (D: 1) 结 点 ,在 工 表 中 结 点 
链接 中 指针 指向 该 CD: 1) 结 点 。 

第 五 个 事务 “Ts : A,C”, 按 工 表 的 次 序 为 {A,C}。 在 FP- 树 中 ,由 于 该 事务 不 含 B 结 
点 ,不 能 共享 B 分 支 。 从 null 结 点 产生 FP- 树 的 第 二 个 分 支 ,建新 A 结 点 , 记 为 (A: 1), 由 
该 结 点 产生 分 支 ,建新 C 结 点 , 即 为 (C: 1) 。 由 于 B 分 支 中 有 (A: 2) 结 点 。 这 样 ,从 (A: 2) 
结 点 用 指针 指向 此 (A: 1) 结 点 ,B 分 支 中 有 (C: 1) 结 点 , 它 用 指针 指向 此 (C: 1) 结 点 。 

第 六 个 事务 “Te : B,C”, 同 第 三 个 事务 那样 , 沿 FP- 树 的 B-C 分 支 的 结 点 计数 各 增加 1， 
变 为 (B: 5) 和 (C: 2) 。 

第 七 个 事务 “T;: A,C”, 同 第 五 个 事务 , 沿 FP- 树 的 A-C 分 支 的 结 点 计数 各 增加 1 , 变 
ws MCCS 的 。 

第 八 个 事务 “Ts : A,B,C,E”, 按 工 表 的 次 序 为 {(B,A,C,E}) ,可 沿 分 支 BA 方向 ,在 A 
结 点 处 新 建 分 支 , 建 C 结 点 , 记 (C: 1) ,由 该 结 点 再 建 分 支 , 建 已 结 点 , 记 为 (下 ,1) ,前 面 B,A 结 
点 计数 各 增加 1, 变 为 : (B: 6),(A: 3)。FP- 树 中 原 刁 结 点 CE: 1) 中 的 指针 指向 该 (E,1) 
Hvo 

第 九 个 事务 “T,: A,B,C”, 按 工 表 的 次 序 为 {B, A，C)}, 同 第 八 个 事务 ,分支 BA-C 方 
向 , 且 已 有 结 点 ,分 别 对 B,A,C 三 个 结 点 计数 增加 1, 变 为 (B: 7),(A: 4),(C: 2)。 最 终 的 
FP- 树 的 表示 如 图 8. 5 所 示 。 
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图 8.5 表 8.16 事务 数据 库 的 FP- 树 


从 FP- 树 可 以 看 出 ,从 工 表 的 结 点 连 的 指针 开始 ,指向 B 结 点 , 它 的 计数 器 为 7, 指 向 A 
结 点 ,共有 两 个 A 结 点 ,累加 计数 为 6; 指 向 C 结 点 ,共有 三 个 C 结 点 ,累加 计数 为 6; 指 向 也 
结 点 ,共有 二 个 卫 结 点 ,累加 计数 为 2; 指 向 已 结 点 ,共有 二 个 下 结 点 ,累加 计数 为 2。 这 样 ， 
频繁 模式 都 在 FP- 树 中 表现 了 出 来 。 

(2) 频繁 模式 挖掘 过 程 

从 FP- 树 中 来 挖掘 频繁 模式 , 先 从 工 表 中 最 后 一 项 开始 。 EE 在 FP- 树 有 两 个 分 支 , 路 径 为 
二 BAE: 1 和 二 BACE: 1 之。 以 已 为 后 级 , 它 的 两 个 对 应 前 级 路 径 是 (BA: 1) 和 (BAC: 1)， 
它们 形成 巨 的 条 件 模式 基 。 它 的 条 件 FP- 树 只 包含 单个 路 径 二 B: 2,A: 2 二 ;不 包含 C, 因 
为 它 的 支持 度 计 数 为 1, 小 于 最 小 支持 度 计 数 。 该 单个 路 径 产 生 频 繁 模式 的 所 有 组 合 : 
{BE: 2,AE: 2,BAE: 2)}。 

对 于 D, 它 的 两 个 前 级 形成 条 件 模式 基 {(BA: 1),(B: 1)}, 产 生 一 个 单 结 点 的 条 件 
FP- 树 (B: 2) ,并 导出 一 个 频繁 模式 {BD: 2)。 

对 于 C, 它 的 条 件 模式 基 是 {(BA: 2),(B: 2),(A: 2)}, 它 的 条 件 FP- 树 有 两 个 分 支 
(B: 4,A: 2) 和 (A: 2)。 它 的 频繁 模式 集 为 : {BC: 4,AC: 4,BAC: 2)。 

对 于 A, 它 的 条 件 模式 基 是 {(B: 4)}, 它 的 FP- 树 只 包含 一 个 结 点 (B: 4) ,产生 一 个 频 
繁 模式 {BA: 4) ,如 表 8.7 所 示 。 


表 8.7 利用 FP- 树 挖掘 频繁 模式 


项 条 件 模 式 基 条 件 FP- 树 频繁 模式 
E BA: 1.BAC: 1 (B: 2,A: 2) BE: 2,AE: 2,BAE: 2 
D BA: 1.B: 1 (B: 2) BD: 2 

BA: 2,B: 2,A: 2 (B: 4,A: 2)(A: 2) BC: 4,AC: 4,BAC: 2 
A B: 4 (B: 4) BA: 4 
2. 基于 FP- 树 算法 


(1) 构造 频繁 模式 树 算法 
@ 扫描 事务 数据 库 DD 一次。 收集 频繁 项 的 集合 (1- 项 集 ) 以 及 相应 的 支持 度 。 按 照 支 
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持 度 降序 排序 ,构成 频繁 项 表 工 。 

@ 创建 FP- 树 的 根 结 点 ,以 null 标记 。 对 于 D 中 的 每 个 事务 了 ,进行 如 下 处 理 : 选择 
开 中 的 频繁 项 目 , 并 按照 工 中 的 次 序 排列 。 设 排列 之 后 的 频繁 项 表 为 Lp|P], 其 中 心 是 第 一 
个 项 目 ,P 是 剩余 的 项 目 表 ; 如 果 [p|P]j 非 空 ,调用 insert_tree([p|lP],T)。 

insert_tree([p|1P],T) 的 执行 过 程 如 下 : 

如 果 开 有 子女 N 使 得 N. item_name 王 p.item_name. 则 N 的 计数 加 1; 否则 创建 一 个 
新 结 点 N ,将 其 计数 设置 为 1, 链 接 到 它 的 父 结 点 了 ,并 且 通 过 结 点 链 将 其 链接 到 具有 相同 
item_name 的 结 点 。 如 果 P 非 空 , 则 递归 地 调用 insert_tree(P,T)。 

(2) 挖掘 频繁 项 目 集 算法 

FP- 树 的 频繁 项 目 集 控 掘 通过 调用 FP_growth(FP-tree,null) 实 现 。 该 实现 过 程 如 下 : 

Procedure FP_growth(Tree,a) 

@ 如 果 Tree 含 单个 路 径 已 , 则 

© 对 于 路 径 P 中 的 每 个 组 合 ( 记 作 有 ) 

® 产生 模式 BUa, 其 支持 度 support=8 中 结 点 的 最 小 支持 度 。 

@ 否则 对 于 在 Tree 头 部 的 每 个 a; 

© 产生 一 个 模式 B8 二 a; Ua, 其 支持 度 support 二 ai 的 支持 度 


© 构造 8 的 条 件 模式 基 , 然 后 构造 8 的 条 件 Trees 
@O 如 果 Trees 非 空 , 则 调用 FP_growth(Trees ,B) 
FP_growth 方法 将 发 现 长 频繁 模式 的 问题 转换 为 递归 地 发 现 一 些 短 模式 ,然后 连接 后 


级 。 它 使 用 最 不 频繁 的 项 做 后 缀 ,提供 了 非常 好 的 选择 性 ,大 大 降低 了 搜索 开销 。 
对 FP_growth 算法 的 性 能 研究 表明 : 对 于 挖掘 长 的 和 短 的 频繁 模式 , 它 都 是 有 效 的 和 
可 伸缩 的 ,并 且 大 约 比 Apriori 算法 快 一 个 数量 级 。 


3. 示例 说 明 


例如 ,假设 有 10 个 事务 的 数据 库 D, 项 目 集合 {a,b,c,d,e,f,g,h,i), 最 小 支持 度 
20% ,如 表 8.8 所 示 。 


表 8.8 事务 数据 库 


TID To T 了 T: TT Ts Te Ts Ts Ts 


数据 库 D 对 应 的 频繁 模式 树 FP- 树 如 图 8.6 所 示 。 
ee EP he 可 以 得 到 数据 库 D 的 频繁 项 目 集 为 {{e}: 7,{a}: 5,{c): 5,{i): 
4,{d}: 3,{g}: 3,{asc}: 4,{ase}: 4,{asg}: 2,{ asi }: 4,{cre}: 4,{csg}: 2 (cz 4 
ee 2s{eriha Stavcse}: 3{ascyi}s 4 avesi}s 3{ereri}s 3,{arcresi}s 3}. 其 中 ,6 
了/，h 不 是 频繁 项 集 。 


“ L833 


图 8.6 FP- 树 实例 


习 题 8 


1. 说 明 等 价 关 系 、 等 价 类 以 及 划分 的 定义 。 
2. 说 明 集 合 X 的 上 .下 近似 关系 定义 。 
3. 说 明正 域 . 负 域 和 边界 的 定义 。 
4. 说 明 粗 糙 集 定义 和 确定 度 定 义 。 

5. 什么 是 属性 约 简 ? 

6. 什么 是 属性 集 的 核 ? 

7. 请 用 粗糙 集 的 条 件 属性 相对 于 决策 属性 的 约 简 定 义 , 对 于 两 类 人 数据 库 表 6. 3 进行 
属性 约 简 计算 。 

8. 说 明 条 件 属性 C 与 决策 属性 D 之 间 的 依赖 度 y(C,D) 的 含义 是 什么 ? 

9. 依赖 度 Y(C,D) 的 性 质 是 什么 ? 

10. 属性 a 的 重要 度 SGF(a,C,D) 的 含义 是 什么 ? 

11. 最 小 属性 集 的 概念 是 什么 ? 

12. 在 数据 库 中 获得 最 小 属性 集 的 步骤 是 什么 ? 

13. 如 何 利 用 集合 之 间 的 上 下 近似 关系 获得 规则 ? 

14. 按照 聚 类 的 原理 和 方法 划分 有 哪 三 种 聚 类 算法 ? 各 种 聚 类 算法 的 思想 是 什么 ? 

15. 写 出 KK- 均值 聚 类 算法 的 计算 步骤 。 

16. 规则 的 支持 度 和 可 信和 度 的 含义 是 什么 ? 

17. 关联 规则 的 兴趣 度 定义 是 什么 ? 说 明 兴 趣 度 的 作用 。 

18. 数据 库 有 4 个 事务 。 设 最 小 支持 度 为 50%。 
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TID 项 TID 项 
T A,C,D Ts A,B, C,E 
T: B,C,E T, BE 


使 用 Apriori 算法 找 出 所 有 的 频繁 项 目 集 。 
实现 Apriori 算法 ,说 明 Apriori 算法 的 主要 系统 开销 在 哪里 ? 


19. 
20. 


差异 。 


对 上述 


有 务 集 使 用 FP- 树 算法 找 出 所 有 的 频繁 项 目 集 ， 


lb 合 论 原理 用 于 分 类 问题 的 思想 是 什么 ? 
合 论 原理 用 于 聚 类 问题 的 思想 是 什么 ? 
Clb 合 论 原理 用 于 关联 规则 挖掘 的 思想 是 什么 ? 


比较 二 者 在 性 能 上 的 


. 对 表 8. 8 事务 数据 库 , 利 用 FP- 树 算法 进行 详细 计算 ,得 出 图 8.6 所 示 的 FP- 树 。 
. 对 上 题 得 出 的 频繁 项 集 , 求 出 关联 规则 。 
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第 9 章 神经 网 络 
9.1 神经 网 络 概念 与 感知 机 


9.1.1 神经 网 络 原理 
1. 人 工 神 经 网 络 概念 


神经 生理 学 家 和 神经 解剖 学 家 早已 证 明 , 人 的 思维 是 通过 人 脑 完成 的 ,神经 元 是 组 成 人 
脑 的 最 基本 单元 ,人 脑 神经 元 大 约 有 10? 一 102 个 ( 约 1000 一 10 000 亿 个 )。 

神经 元 由 细胞 体 . 树 突 和 轴 突 三 部 分 组 成 ,是 一 种 根 须 状 的 蔓延 物 。 神 经 元 的 中 心 有 一 
闭 点 , 称 为 细胞 体 , 它 能 对 接收 到 的 信息 进行 处 理 。 细 胞 体 周 围 的 纤维 有 两 类 , 轴 突 是 较 长 
的 神经 纤维 ,是 发 出 信息 的 。 树 突 的 神经 纤维 较 短 ,而 分 支 很 多 ,是 用 于 接收 信息 的 。 一 个 
神经 元 的 轴 突 末端 与 另 一 个 神经 元 的 树 突 之 间 密 切 接触 ,传递 神经 元 冲动 的 地 方 称 为 突 触 。 
经 过 突 触 的 冲动 传递 是 有 方向 性 的 ,不 同 的 突 触 进行 的 冲动 传递 效果 不 一 样 ,有 的 使 后 一 神 
经 元 发 生 兴 奋 , 有 的 使 它 受 到 抑制 。 每 个 神经 元 可 有 10 一 10: 个 突 触 。 这 表明 大 脑 是 一 
广泛 连接 的 复杂 网 络 系统 。 从 信息 处 理 功 能 看 ,神经 元 具有 如 下 性 质 : 

(1) 多 输入 单 输出 ， 

(2) 突 触 兼 有 兴奋 和 抑制 两 种 性 能 ; 

(3) 可 时 间 加 权 和 空间 加 权 ; 

(4) 可 产生 脉冲 ; 

(5) 脉冲 进行 传递 ; 

(6) 非 线 性 (有 阅 值 ) 。 

神经 元 的 数学 模型 用 图 9. 1 表示 。 


图 9.1 神经 元 模型 


其 中 Vi ,Vs,…,V 为 输入 ;Ui 为 该 神经 元 的 输出 ;Wi 为 外 面神经 元 与 该 神经 元 连接 强 
度 ( 即 权 ) ,0 为 冰 值 , f(CX) 为 该 神经 元 的 作用 函数 。 
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2. MP 模型 与 Hebb 规则 


(1) MP(CMecculloch ,Pitts) 模 型 
每 个 神经 元 的 状态 Ui(i 二 1,2,….n) 只 取 0 或 1, 分 别 代 表 抑制 与 兴奋 。 每 个 神经 元 的 
状态 ,由 M-P 方 程 决定 : 


U; = f(D waV, —0) i=1,2,n (9.1) 
其 中 W 是 神经 元 之 间 的 连接 强度 ,Ws 二 0,W, (i 关门 是 可 调 实 数 ,由 学 习 过 程 来 调整 。 0 
是 阔 值 ,FCz) 是 阶梯 函数 。 


MP 模型 实质 上 是 把 人 脑 神经 元 的 功能 ,转换 成 了 数学 模型 。 以 后 就 用 这 个 数学 模型 
去 解决 非 生物 中 模式 识别 的 分 类 问题 。 

(2) Hebb 规则 

Hebb 学 习 规则 : 车 i 与 j 两 种 神经 元 之 间 同 时 处 于 兴奋 状态 , 则 它们 间 的 连接 应 加 
强 , 即 

AW; = aUiV; (a>0) 《9 2 

设 a=1, 当 U;=Vj==1 时 ,AW; = 二 1, 在 Ui,V; 中 有 一 个 为 0 时 ,AW; = 二 0。 这 一 规则 与 

“条 件 反射 "学 说 一 致 ,并 得 到 神经 细胞 学 说 的 证 实 。 


3. 各 种 作用 函数 
(1) [0 ,1 阶梯 函数 
_ ls xz>0 
f(z) = (9. 3) 
I ze0 
(2) [一 1,1j 的 阶梯 函数 
1, E> 
f(z) = (9.4) 
1 0 
(3) (一 1,1)S 型 函数 
ee 
He) (9.5) 
(4) (0,1)S 型 函数 
证 
jz) = To= (9.6) 


(0,1)S 型 函数 如 图 9.2 所 示 。 
9.1.2 感知 机 网 络 
感知 机 网 络 是 神经 网 络 应 用 最 早 , 且 最 成 功 的 神经 网 络 模型 。 
1. 感知 机 (Perceptron) 原 理 
感知 机 网 络 是 双 层 模型 ,其 结构 如 图 9. 3 所 示 。 


"LL. 


一 0.5 


-— 
0 
图 9.2 (0,1)S 型 函数 图 9.3 感知 机 网 络 结构 
输出 层 神 经 元 i 的 输入 为 
Li = OWiri—0 (9.7) 


2i 为 输入 层 j 神经 元 的 输出 ,Wi; 为 输入 层 神经 元 7 到 输出 层 神经 元 i 的 连接 权 值 。 输 
出 层 神 经 元 i 的 输出 为 
oO = f(1) (9. 8) 
其 中 f(z) 为 神经 元 作用 函数 ,感知 机 采用 [0,1] 阶 梯 函 数 。 
设 i 神经 元 的 实际 输出 为 D;, 它 与 计算 输出 O; 之 差 为 


6; = D;—O; (9. 9) 
通过 样本 学 习 , 修 正 权 值 W; 使 6; 尽 可 能 小 。 利 用 著名 的 德尔 塔 规则 (delta rule) 计 算 : 
AW; 二 a6;X; (a 为 常数 ) (9.10) 
Wi(t+i+1) = Wi;(t) + AW; (9.11) 

闵 值 修正 公式 
Ab = ab， (9 123 
Ap (十 1) = 0.(1) 十 Ab 953 


更 新 权 值 W; 和 0。 对 样本 重复 以 上 计算 ,经 过 多 次 反复 修正 ,将 使 8 趋向 于 0。 
2. 感知 机 网 络 的 实现 


(1) 数据 结构 
输入 结 点 向 量 XX( 结 点 数 为 m) 


@ 输出 结 点 向 量 ( 结 点 数 为 n) 
结 点 1 2 
输入 了 I om 
计算 输出 O，O，O0，… 0O, 
实际 输出 D D，, D; … PD， 


@ 网 络 上 权 值 
WH Wi2 Tlm 
Tw Tw Uw 
Wo 21 辣 2 
Wn TOn2 Tnm 
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(2) 学 习 过 程 
给 出 一 组 学 习 样 本 ( 共 忆 个 ) 
(XC DCD KCN DDN Ds KCB) Dp) 

对 第 个 样本 (XC(kR),D(k)) 有 : 
输入 : 

Xk) = (ziCR) ,ra(R) ,rn(CR)) 
实际 输出 : 

D(k) = (Di (CA) ,DCR)，…,D,(CR)) 
J@O 给 网 络 上 权 值 和 阔 值 赋 初 值 ,如 : 

Ws 三 0，0: 夺 0 

样本 循环 变量 赋 初 值 : 二 1, 总 误差 初 值 E=0, 迭 代 次 数 LL 二 0。 
@ 通过 感知 机 模型 公式 计算 ,对 第 个 样本 : 
输入 : 

Xk) = (zi(R) ,rz(R) rn(CR)) 
计算 输出 : 

Ok) 一 (OCR) ,Os(k) OCR)) 
迭代 次 数 工 一 工 十 1 


@ 误差 计算 
每 个 输出 结 点 误差 : 
Oi(k) = Di(k)— OR) (i= 1,2,%,n) 
第 & 个 样本 误差 : 
ex = | G:Ck) | 
@ 权 值 修正 


原则 : 修正 权 Wj 使 6; 尽 可 能 的 小 ,利用 德尔 塔 规则 (Delta Rule) , 即 : 
AW; = a6i(k) zx;(k) 
Wslnt1) = Wi;(n) 十 Amwy 
@ 阔 值 修正 
Al0; = ab， 
Ab 十 1) 一 和 (Ci) 十 Ab 
@ 计算 已 个 样本 的 总 误差 
E= E+te, 
@ 检查 
k= P? 
是 : 检查 |E| 二 0.05? 
是 : 计算 结束 。 输 出 迭代 次 数 工 和 总 误差 下 ,输出 网 络 权 值 W; 。 
否 : k 二 1,E 二 0。 样 本 再 次 学 习 , 转 @ 循 环 。 
否 :二 k 十 1, 做 下 一 个 样本 , 转 @ 循 环 。 
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9.1.3 感知 机 实例 与 讨论 


1. 感知 机 实例 
两 值 逻 辑 加 法 例 , 输 入 数据 和 输出 数据 样本 如 下 : 了 
输入 zl xz2 输出 d (实际 ) 
0 0 0 wl W2 
人 于 Ll 
1 0 1 
xl x2 
La , 图 9.4 两 值 逻辑 加 法 神经 网 络 
该 例 的 神经 网 络 结构 如 图 9.4 所 示 。 
该 例子 的 感知 机 计算 公式 ， 
wl CHD wl 1® wl 
| | -| | +ead—»| | 
w2 w2 x2 
初 值 : 
wad 
= c=1 
w2 0 
其 中 4 为 期 望 输出 ,y 为 计算 输出 。 
计算 过 程 ， 
K=1, y= f(0+0)=0 
oad bl Na 
(0 Os 下 顾 一 
[Lvw2] w2 0 0 0 [0 
二 2， y= 三 f(0 二 0)==0 
ll Bb] 
(1 一 0) 。 王国 一 
Lzo2 w2 1 0 业 
K=3, y= f(0+0)=0 
+0. 
Lw2 | w2 “Jol lo 
K=4, y= f(l+1)= f(2)=1 
bel bl Ha 
一 二 《一 
Lzo2 j w2 [1 
再 循环 一 次 ,将 会 得 到 所 有 例子 的 (d 一 y) 值 均 为 零 , 即 权 值 (wl 二 1,w2 二 1) 满 足 所 有 
实例 要 求 。 
2. 感知 机 讨论 


现 将 二 值 逻辑 加 法 实例 , 改 为 异 或 问题 实例 , 即 第 四 个 样本 的 实际 输出 值 由 1 改 为 0。 
异 或 问题 样本 示意 图 如 图 9.5 所 示 。 
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输入 zl xz2 输出 y 
0 0 0 
(0,D) o(LD | 1 
1 0 1 
il 过 0 
oo| (10) 感知 机 对 异 或 问题 的 神经 网 络 计算 如 下 : 
KK 二 1,2,3 的 计算 同 二 值 逻 辑 加 法 样本 计算 。 


图 9.5 蜡 或 问题 样本 示意 图 
天 一 4 时 有 2 


y= f(l++1)=f(2)=1 
bo bed Gels lll 
上 《0 一 1)。 
w2 w2 1 i 1 0 
修改 后 的 权 值 ,又 回 到 了 初始 状态 ,如 果 继 续 计 算 ,将 出 现 无 限 循环 ,永远 都 不 会 收敛 。 


该 例 充分 说 明 感 知 机 对 异 或 问题 ( 非 线 性 ) 无 效 。 要 解决 非 线 性 问题 ,需要 在 输入 、 输 出 
两 层 神经 网 络 中 间 增 加 隐 结 点 层 。 下 面 讨论 的 反 向 传播 模型 (BP) 可 以 解决 非 线 性 问题 。 


9.2 反 向 传播 网 络 


9.2.1 反 向 传播 网 络 结构 
反 向 传播 (Back Propagation,BP) 网 络 是 1985 年 由 Rumelhart 等 人 提出 的 。 


1. 多 层 网 络 结构 
神经 网 络 不 仅 有 输入 结 点 ,输出 结 点 ,而且 有 一 层 或 多 层 隐 结 点 ,如 图 9. 6 所 示 。 


2. 作用 函数 为 (0,1)S 型 函数 


J 


3. 误差 函数 
对 第 p 个 样本 误差 计算 公式 为 
杞 一 寺 忆 (一 Oo (9.15) 
其 中 tw .Oj 分 别 是 样本 实际 输出 与 计算 输出 。 
9.2.2 BP 网 络 学 习 公 式 推导 


BP 网 络 表示 为 ,输入 结 点 : zj, 隐 结 点 : w ,输出 结 点 O, 。 
输入 结 点 与 隐 结 点 间 的 网 络 权 值 为 Wi , 隐 结 点 与 输出 结 点 间 的 网 络 权 值 为 T;。 当 输 
出 结 点 的 实际 输出 为 二 时 ,BP 模型 的 计算 公式 为 


图 9.6 BP 模型 网 络 结构 
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1. 隐 结 点 的 输出 


yi = f (Dwsz 一 )= fneti) 
i 
其 中 ,net= 2》) wx; 一 0.。 


2. 输出 结 点 计算 输出 


0 =/(2 Tayi—0)= fnet) 
其 中 ,net 一 之 Tayi 一 0 。 


3. 输出 结 点 的 误差 公式 


1 1 S 2 
E 2 2 O1)? 2 2 f(2Tay —0)) 
= fT Dw —0) —0)) 
i i i 
4. 对 网 络 权 值 修正 公式 的 推导 


(1) 对 输出 结 点 的 公式 推导 
aE aE a0O, aE 90， 


aTs 名 5 和 50 537 
已 是 多 个 Ou 的 函数 ,但 只 有 一 个 0 与 Te 有关, 各 O4 间 相 互 独立 。 其 中 


.省 IO， 
3 后 2 一 00) 50 (一 DO) 
3a0， 3a0，. anet _ a 
了 一 0 " aT f (net/)。 y; 
则 
9 
gs =— (4 —0) «fC(net) «yy, (9. 16) 
设 输出 结 点 误差 
6 = (4 C—O0) .ff (net) C9; 17) 
则 
aE __ 
5 = 一 by (9.18) 


(2) 对 隐 结 点 的 公式 推导 
aE 5 aE 90, 9y; 
9Ws 7 $90, 9y: 9Ws 
EE 是 多 个 0, 函数 ,针对 某 一 个 Wi ,对 应 一 个 y;, 它 与 所 有 O, 有关, 其中: 
aE | 2C: _ 
0 2(t4 C—O). 了 (二 一 OD) 


k 


" LOZ 


90: 90: onet __ gnet! J 
5 = 人 。 i = f (net,). a = f (net,)»。 T, 
9 9y Agnet; 1 
Ws; net "IW f (neti)， x; 
则 
a es et 
AWs; 了 
=— DOTi * f (neti) * (9.19) 
用 
设 隐 结 点 误差 
= f (net) » D0T, (9. 20) 
Ll 
则 
aE / 
WW 一 3 (9.21) 
由 于 权 值 的 修正 ATi ,AWs 正比 于 误差 函数 沿 梯度 下 降 , 则 有 : 
oF 
AT,; =— 373 元 = DOLy: (9 22) 
8 = (1,—O0). f (net) (9. 23) 
, 9E 1/ 
Wy = a (9. 24) 
6 = f (net) D0Ts (9. 25) 
§ 
(3) 公式 推导 结果 汇总 
@ 对 输出 结 点 误差 : 
6, = (4 — 0) » f (net,) (9. 26) 


@ 输出 层 网 络 权 值 修正 : 
Tuk+1) = 一 Ta) 十 AT = Tsk) + my: (9. 27) 
@ 对 隐 结 点 误差 : 


0 一 f (net;) . DD (9.28) 
‘ 
@ 隐 结 点 网 络 权 值 修正 : 
Wi (kt+1) = Ws(k) + AW; = Ws (k) + wo; (9. 29) 
其 中 , 隐 结 点 误差 % 的 含义 : 
>) 5,T, 表 示 输 出 层 结 点 1 的 误差 8 通过 权 值 Ti 向 隐 结 


点 i 反 向 传播 (误差 6, 乘 权 值 ;再 累加 ) 成 为 隐 结 点 i 的 误差 ， 
如 图 9.7 所 示 。 


5. 阅 值 的 修正 
阅 值 9 也 是 一 个 变化 值 , 在 修正 权 值 的 同时 也 修正 它 , 原 理 
同 权 值 的 修正 。 图 9.7 误差 反 向 传播 示意 图 
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(1) 对 输出 结 点 的 公式 推导 


aE _ 9E 90, 
a0, 90, 0, 
其 中 纺 二 一 (4 一 0) ,对 某 个 对 应 一 个 0 
on 


区 人 a a0 9net 
90, gnet! 90, 


= 六 Cnet)。( 一 1) 


(9. 30) 


(C931) 


(9. 33) 


则 
9 ~ 
= (ti—0).f (neu)=6, 
由 于 
9 
Ab, = 7 了 一 706, 
则 
b (二 1) = 0.(k) 十 1， 
(2) 对 隐 结 点 的 公式 推导 
oaE _ 9E .ay 3aEa0ay 
a0 Ay: 90 90,9y, 90, 
其 中 : 
aE I ue 
0 = 2 O,) 
9 
O, = f (net,)。 TT, 
9y: 
9y: _ 9y ,net/_y Ee ， 
0 一 Bnet 0 f (neti:)*。 (—1) f (net;) 
则 
小 = Du—OF (Cnet) Tse f (net) = DTs * f (neti)=60; (9.32) 
Su 上 t 
由 于 
a yy 
Ap0; = 75 一 70i 
则 
0(R 十 1) = 0.(k) 十 16 
6. 作用 函数 fx) 的 导数 公式 
时 
函数 f(z) 一 Te 存在 关系 
矿 (z) 一 rz (一 2z)) 
则 


对 输出 结 点 : 
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f (neti) = FCnett)。(1 一 Fnett)) 


OO 一 fl(net,) 


(9. 34) 


FPCnet) = O.(1— 0,) 
对 隐 结 点 : 

yi = f(net;) 

f (neti) = yi(1— y;) 


7. BP 模型 计算 公式 汇总 


(1) 输出 结 点 的 输出 0, 计 算 公 式 
@ 输入 结 点 的 输入 xz， 
@ 隐 结 点 的 输出 : 
三 f (2 WaxX; 一 %) 
其 中 , 连接 权 值 w，, 结 点 阔 值 0。 
@ 输出 结 点 的 输出 : 
0 = /f(DTsy—0) 
其 中 : 连接 权 值 T , 结 点 阔 值 0. 。 
(2) 输出 层 ( 隐 结 点 到 输出 结 点 间 ) 的 修正 公 
@ 输出 结 点 的 样本 实际 输出 : 
@ 误差 控制 : 


所 有 样本 误差 : E= 》) ce<e, 其 中 一 个 样本 误差 


4 = D1 op | 
其 中 ,p 为 样本 数 ,n 为 输出 结 点 数 。 
图 误差 公式 ， 
2 = (C—O0) .0O,. (1—0,) 
@ 权 值 修正 : 
Ti(k+1) = Ti(k) + ny: 
其 中 为 迭代 次 数 。 
@ 阔 值 修正 : 
bCR 十 1) = 0.(k) 十 76， 
(3) 隐 结 点 层 (输入 结 点 到 隐 结 点 间 ) 的 修正 公式 
@ 误差 公式 : 
= yi(1— y) DT 
@ 权 值 修 正 : 
Ws (k++1) = W;(k) + yo 
@ 国 值 修正 : 
0:(k+1) = 0.(k) + 6 


(9. 35) 


(9, 36) 


《9:37) 


(9..38) 


C9:39) 


(9. 40) 


(9.41) 


(9.42) 


“= L995 


8. BP 模型 算法 总 结 


BP 模型 算法 分 为 三 个 部 分 : 隐 结 点 和 输出 结 点 的 输出 计算 ;@ 输 出 结 点 和 隐 结 点 的 
误差 计算 ;@ 输 出 层 网 络 权 值 及 结 点 阔 值 与 隐 结 点 层 网 络 权 值 及 结 点 阔 值 的 修改 ,如 图 9. 8 
所 示 。 


6/°=0,(1-0 (dr01) 输出 工 
en oH( Eros0) 
求 TA DT On y; 结 点 
OFD=0M+n6) CC— 
sp 修正 权 7 
泡 
860) a 一 bp 
| 纳 凡 @ 2 Jixrg) 
501) L607 修正 权 ww; 
WD=W +m Dx 
OD=0N+n6) 3 了 
| 人 


修正 (Tb) (Wi,0) 
图 9.8 ”BP 模型 算法 示意 图 


BP 模型 计算 ,不 但 对 每 一 个 样本 要 积累 计算 各 输出 结 点 的 误差 ,对 所 有 样本 还 要 积累 
各 样本 的 误差 ,这 个 总 误差 才 是 一 次 迭代 的 误差 , 当 它 不 满足 给 定 误差 时 ,继续 迭代 (用 新 网 
络 权 值 和 阔 值 ,再 对 所 有 样本 重复 计算 ) ,直到 满足 给 定 误差 为 止 。 这 种 迭代 可 能 需要 上 万 
次 才能 够 收敛 。 


9.2.3 ”BP 网 络 的 典型 实例 
1. 异 或 问题 的 BP 神经 网 络 


异 或 问题 (XOR) 用 BP 模型 进行 求解 ,样本 和 神经 网 络 如 图 9.9 所 示 。 
按 问题 要 求 , 设 置 输入 结 点 为 两 个 (zi ,zz ) ,输出 结 点 为 1 
个 (z), 隐 结 点 定 为 2 个 (yi ,ys)。 
输入 zx zz | 输出 


一 一 品 O 
一 OO~ Oo 
OP~“~ Oo 


2. 计算 机 运行 结果 Eo 为 


图 9. 9 或 问 是 经 网 络 图 
(1) 选 代 次 数 ， 16745 次 ;给 定 误差 : 0. 05 人 
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(2) 隐 层 网 络 权 值 和 阔 值 : 
wi 一 5.24， wis 一 5.23， wn 一 6.68， rz = 6.64, 0,=8.01, (= 2.98 
(3) 输出 层 网 络 权 值 和 浆 值 : 

入 10, Ts =10, $=4.79 


9.3 径 向 基 函 数 网 络 


9.3.1 径 向 基 函 数 RBF 网 络 原 理 
1. 基本 概念 


径 向 基 函 数 (Radial Basis Function, RBF) 神 经 网 络 是 一 类 常用 的 三 层 前 馈 网 络 ,用 于 
模式 分 类 ,也 可 用 于 函数 逼近 。 

RBF 神经 网 络 与 前 向 神经 网 络 类 似 ,是 含有 隐 层 的 前 向 三 层 神经 网 络 。 输 入 层 由 一 些 
输入 单元 组 成 。 隐 层 单元 的 变换 函数 是 径 向 基 函 数 , 它 是 非 线 性 的 ,在 输入 空间 到 隐 层 空间 
之 间 进 行 非 线性 变换 。 输 出 层 的 输出 是 对 隐 层 单元 的 线性 分 类 , 即 RBF 神经 网 络 分 成 前 后 
两 部 分 : 

(1) 将 非 线性 样本 : XX(zi,xs，… ,x,), 通 过 径 向 基 函 数 变 换 成 线性 样本 : H (h(x)， 
hs (xz), ,hi (rz)), 

(2) 通过 类 似 于 感知 机 神经 网 络 , 将 线性 样本 五 (X) 进 行 分 类 。 

径 向 基 函 数 神经 网 络 结构 图 如 图 9. 10 所 示 。 


(2 
.2 
Do 


A 
= 
人 ~~ 人、\ 


而 x a 六 Wa We x 


图 9.10 RBF 径 向 基 函 数 神经 网 络 结构 图 


径 向 基 范 数 神经 网 络 克 服 了 反 向 传播 网 络 (BP) 梯 度 下 降 算 法 中 的 局 部 极 小 问题 。 其 
中 , 隐 单 元 的 个 数 可 以 是 固定 的 ,也 可 以 根据 对 象 的 特征 自 适 适应 选择 。 当 隐 单 元 的 个 数 和 
径 向 基 范 数 的 参数 确定 后 ,RBF 神经 网 络 的 训练 学 习 只 集中 在 隐 层 至 输出 层 的 连接 权 值 的 
训练 学 习 , 这 时 的 训练 是 基于 线性 寻 优 的 。RBF 网 络 具有 逼近 精度 高 、 网 络 规模 小 .学 习 速 
度 快 和 不 存在 局 部 最 小 问题 等 特点 。 

径 向 基 吨 数 取 高 斯 函数 , 即 隐 层 第 k 个 结 点 的 输出 为 


hi(x) = exp 人 一 | 
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式 中 cx 一 (cuwycx cx) 为 第 & 个 隐 结 点 的 中 心 向 量 ;o 为 第 & 个 隐 结 点 的 宽度 ; | * | 为 
输入 向 量 xz(zi ,x ，… ,zs) 与 中 心 向 量 c 的 距离 。 
整个 网 络 的 输入 输出 方程 为 


大 
yi = Dwshj (x), 1529°°% mm 
=1 


式 中 : 为 当前 网 络 中 隐 结 点 的 个 数 ;wj 为 隐 层 第 j 个 终结 点 与 输出 层 第 i 个 结 点 的 连接 权 
值 。 由 于 输出 层 是 线性 函数 ,网 络 输出 是 径 向 基 隐 层 输 出 的 线性 组 合 , 因 此 很 容易 达到 从 输 
入 空间 到 输出 空间 非 线性 映射 的 目的 。 


2. 隐 层 设计 


设计 RBF 网 络 的 隐 层 ,主要 是 确定 隐 层 单元 数目 和 它们 的 激励 函数 (高 斯 函数 ) ,高 斯 
函数 由 聚 类 中 心 ce 和 聚 类 宽度 cx 确定 。 在 初始 计算 时 ,由 于 训练 模式 的 类 别 是 已 知 的 , 因 
此 可 以 采用 开 - 均 值 聚 类 方法 , 即 每 一 类 对 应 隐 层 网 络 的 一 个 单元 。 高 斯 函数 的 宽度 参数 可 
以 根据 各 类 中 的 点 与 中 心 点 的 距离 取 均 值 ,而 高 斯 函数 的 中 心 分 别 取 各 类 的 均值 作为 各 自 
单元 的 中 心 点 。 虽 然 这 种 方法 构造 的 网 络 相 对 显得 有 点 粗糙 ,但 是 通过 有 效 的 学 习 算 法 以 
及 采用 误差 校正 的 策略 可 以 有 效 地 改善 网 络 的 性 能 。 在 实际 分 类 应 用 中 ,通过 这 样 的 方式 
构造 的 网 络 相当 简洁 高 效 ,而且 不 会 影响 分 类 的 准确 性 。 


9.3.2 RBF 网 络 算法 与 分 析 
1. RBF 网 络 的 训练 


假设 有 一 个 样本 序列 {zx(1),d(0)) ,其 中 zz(1) 第 1 个 输入 样本 ,qd(1) 为 x(1) 对 应 的 实际 
输出 ,这 些 样 本 一 个 接 一 个 地 提供 给 网 络 。 在 某 时 刻 1 输入 样本 (x(1),d(7)), 根 据 网 络 计 
算 输出 与 样本 实际 输出 的 差异 程度 来 决定 是 否 需要 修改 网 络 参数 。 

常用 的 训练 算法 ,包括 聚 类 方法 ,梯度 训练 算法 ,以 及 正 交 最 小 二 乘 学 习 算法 。 下 面 介 
绍 常用 梯度 训练 算法 。 


2. 梯度 训练 算法 公式 


RBF 网 络 的 梯度 训练 方法 与 BP 算法 训练 多 层 感 知 器 的 原理 类 似 , 也 是 通过 最 小 化 目 
标 函 数 实现 对 各 隐 结 点 数据 中 心 、 宽 度 和 输出 权 值 的 学 习 。 
建立 这 种 训练 过 程 首先 是 定义 一 个 误差 函数 巨 来 衡量 网 络 计 算 输 出 > 与 样本 实际 输 
出 4 之 间 的 差异 ,形式 为 
交 = 去 cu = 入 六 
这 里 的 d;,y; 分 别 为 网 络 第 i 个 输出 结 点 的 实际 输出 和 计算 输出 。 按 照 梯度 下 降 方法 ,和 
BP 算法 一 样 ,用 误差 图 数 下 分 别 对 owi cr os 求 偏 导数 ,得 出 此 三 个 数 的 迭代 公式 : 


2+1 


wi 三 8 和 十 各 “(di 一 Ye hi(z) 


本 
CH 一 CG 十 不 > [Cd 一 yo]。 全 
i=1 


j 


hj;(zr) 
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of 一直 a —y) .os]。 ze h(x) 
根据 上 述 公式 修改 网 络 参 数 .经 过 有 限 次 的 调整 之 后 ,就 可 以 使 该 样本 的 网 络 输 出 误差 
控制 在 容许 的 误差 范围 以 内 。 


3. 基本 的 RBF 算法 的 流程 


(1) 根据 已 知 样本 的 类 别 个 数 确定 隐 层 结 点 数目 ,并 分 别 在 各 类 别 中 随机 选取 一 个 样 
本 作为 该 类 的 中 心 ci ,初始 宽度 m 可 以 通过 各 类 中 的 样本 标准 差 确定 ,再 初始 化 ww 。 设 定 
容许 误差 e(e 宇 0) .学 习 率 ,nn ,加 。 假 设 目 前 可 用 的 最 大 训练 样本 数 为 S(S 宇 1) , 设 定 循 
环 变量 1 初始 为 1。 

(2) 输入 第 个 训练 样本 , 按 公 式 求 得 网 络 实际 输出 y。 

(3) 求 计算 输 出 与 实际 输出 之 间 的 误差 ;如 果 误差 为 |E| 三 e, 则 该 样本 不 需要 调整 网 
络 参数 , 跳 到 (6) ;否则 进入 下 一 步 。 

(4) 按 i=1,2,… ,m3j 二 1,2,…,k, 对 权 值 wi 中心 矢量 ci 宽度 m 进行 修正 。 

(5) 基于 新 的 网 络 参数 (t 十 1) , 转 到 (2)。 

(6) t 十 1; 如 果 1 三 S( 样 本 数 ), 即 无 新 样本 , 则 整个 学 习 过 程 结 束 ; 否 则 转 到 (2)。 


4. RBF 神经 网 络 算法 分 析 


径 向 基 函 数 (RBF) 神 经 网 络 是 一 种 三 层 前 馈 神经 网 络 , 其 隐 含 层 和 输出 层 所 完成 的 功 
能 是 不 同 的 。 隐 含 层 是 对 RBF 的 输入 参数 进行 调整 ,采用 的 是 非 线 性 样本 转换 成 线性 样本 
的 策略 。 输 出 层 是 对 线性 样本 进行 分 类 ,采用 的 是 线性 优化 策略 。 这 样 ,其 网 络 训练 算法 包 
括 两 部 分 : 

(1) 网 络 隐 层 的 径 向 基 郴 数 的 中 心 c; 和 宽度 oj 的 确定 ; 

(2) 隐 层 到 输出 层 权 值 wj 的 确定 , 即 调整 隐 层 空间 到 输出 空间 的 权 值 矩阵 。 

这 两 个 部 分 可 以 同步 进行 (上 面 给 出 的 RBF 算法 流程 ) ,也 可 以 异步 进行 (对 第 (1) 步 进 
行 训练 样本 的 聚 类 变换 ,对 第 (2) 步 进行 类 似 于 感知 机 神经 网 络 计 算 , 完 成 分 类 )。 

因为 网 络 输出 与 连接 权 之 间 呈 线性 关系 ,所 以 对 权 值 的 训练 可 以 采用 类 似 于 感知 机 神 
经 网 络 算法 。 因 此 ,RBF 神经 网 络 训练 算法 的 关键 在 于 第 (1) 步 的 径 向 基 函 数 的 中 心 矢量 
和 宽度 的 确定 。 


9.4 神经 网 络 的 几何 意义 


9.4.1 神经 网 络 的 超 平面 含义 
1. 神经 元 与 超 平面 
由 n 个 神经 元 (j 一 1,2,…,n) 对 连接 于 神经 元 i 的 信息 总 输入 Ti 为 
L= Du 一 4 (9.43) 
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其 中 wi 为 神经 元 7 到 神经 元 i 的 连接 权 值 ,0; 为 神经 元 的 阅 值 。 神 经 元 zj (j 王 1， Se “un 
相当 于 维 空间 (zi ,zs，… ,xz,) 中 一 个 结 点 的 坐标 (为 了 便于 讨论 ,省 略 i 下 标记 )。 


I= Sz, 一 9 一 0 (9. 44) 


它 代 表 了 守 维 空间 中 ,以 坐标 zx; 为 变量 的 一 个 超 平面 。 其 中 zw 为 坐标 的 系数 ,0 为 常 
数 项 。 
若 已 知 有 7 个 样本 ， 
(LO 
在 n 维 空间 中 ,相当 于 已 知 n 个 结 点 的 各 结 点 坐标 。 该 n 个 结 点 可 唯一 构成 一 个 超 平 
面 。 超 平面 方程 用 行列 式 表示 为 


x ZX zi 1 

1 

a a i a 

xz? xz2 … xz 1|=0 (9.45) 
2 i 


它 是 以 n 维 坐 标 x; (j= 二 1,2,…,n) 为 变量 的 线性 方程 。 将 它 展开 即 为 超 平面 方 
程 (9. 44)。 
其 中 系数 zw 和 常数 9 用 行列 式 表示 为 


(DD) (1) Cy (CD 
XI Til Zit 2 1 
(2) (2) (2) (2) 
i 2 1 
wi = (—1)™ (9.46) 
2 元 个 | 
ro? x re 
—0=(—D)"|zx® 7 (9.47) 
(n) (mn) 
Tz ZZ 


当 n==2 时 ,“ 超 平面 "为 平面 (x1 ,zs) 上 的 一 条 直线 : 


i pe 0 一 wz 十 rszz 一 0 一 0 
i=1 
当 二 3 时 ， 超 平面 ”为 空间 (zk ，zz ,zs) 上 的 一 个 平面 : 


3 
了 一 Dwizi —0 = wx 十 WaTzzs 十 waz3 一 0 二 0 
j=1 


从 几何 角度 看 ,一 个 神经 元 代表 一 个 超 平面 。 
2. 超 平面 的 作用 


7 维 空间 (zi ,zs，… ,zx,) 上 的 超 平面 1 二 0, 将 空间 划分 为 三 部 分 。 

(1) 平面 本 身 

超 平面 上 的 任意 结 点 (x1? ,x2”,… ,zs ) 满足 于 超 平面 方程 , 即 : 
。 200 。 


2>)miz 和 一 0 一 0 (9.48) 


(2) 超 平面 上 部 P 

超 平面 上 部 P 的 任意 结 点 (zi ,x32 ,… ,zx ) 满 足 于 不 等 式 , 即 

Dw -0>0 (9.49) 
(3) 超 平面 下 部 Q 

超 平面 下 部 Q 的 任意 结 点 (zi2 ,zx ,zt2 ) 满 足 于 不 等 式 , 即 


Dwr®? —0<0 (9. 50) 


i 


3. 作用 函数 的 几何 意义 
神经 网 络 中 使 用 的 阶梯 形 作 用 函数 为 
| 


f(x) = | 
0,，Zz0 
把 维 空间 中 超 平面 的 作用 和 神经 网 络 作用 函数 结合 起 来 , 即 
1， Dw = 
GD = 让 yx; —0)= 4 (9.51) 
(2 ) Os Dwr;—0<0 
它 的 含义 为 : 超 平面 上 部 PP 的 任意 结 点 经 过 作用 函数 后 转换 成 数值 1。 超 平面 上 任意 
结 点 和 超 平面 下 部 Q 上 的 任意 结 点 经 过 作用 函数 后 转换 成 数值 0。 


4. 神经 元 的 几何 意义 


通过 以 上 分 析 可 知 ,一 个 神经 元 将 其 他 神经 元 对 它 的 信息 总 输入 了 ,作用 以 后 (通过 作 
用 函数 ) 的 输出 ,相当 于 该 神经 元 所 代表 的 超 平面 将 n 维 空间 (个 输入 神经 元 构成 的 空间 ) 
中 超 平面 上 部 结 点 转换 成 1 类 , 超 平面 及 其 下 部 结 点 转换 成 0 类 。 

结论 : 神经 元 起 了 一 个 分 类 作用 。 


5. 线性 样本 与 非 线 性 样本 


定义 : 对 空间 中 的 一 组 两 类 样本 , 当 能 找 出 一 个 超 平面 将 两 者 分 开 , 称 该 样本 是 线性 样 
本 。 若 不 能 找到 一 个 超 平面 将 两 者 分 开 , 则 称 该 样 


本 是 非 线性 样本 。 
二 值 迎 辑 加 法 样本 示意 图 如 图 9. 11 所 示 , 两 类 、\、、m Se 
样本 (0,1) 可 以 利用 一 条 直线 分 隔 开 。 ~ 
从 线性 样本 定义 可 知 二 值 逮 辑 加 法 是 线性 可 A 
分 的 。 Cr ~ 0) 
感知 机 对 线性 样本 是 非常 有 效 的 , 它 在 模式 识 ee 
别 中 是 一 个 重要 的 方法 。 BS 


从 图 9. 5 中 可 以 看 出 , 异 或 问题 (XOR) 是 找 不 。 图 11 二 值 逻辑 加 法 样本 示意 图 
»。 201 。 


到 一 条 直线 将 两 类 样本 分 开 。 从 线性 样本 定义 可 知 , 异 或 问题 样本 是 一 个 非 线性 样本 。 
6. 非 线性 样本 变换 成 线性 样本 


利用 超 平面 分 割 空间 原理 ,对 一 个 非 线性 样本 它 是 不 能 用 一 个 超 平 面 分 割 开 。 但 用 多 
个 超 平面 分 割 空间 成 若干 区 ,使 每 个 区 中 只 含 同类 样本 的 结 点 。 这 种 分 割 完成 了 一 种 变换 ， 
使 原 非 线 性 样本 变换 成 二 进 制 值 下 的 新 线性 样本 。 


9.4.2 异 或 问题 的 实例 分 析 


异 或 问题 (XOR) 的 解 已 在 9. 2. 3 节 中 给 出 ,根据 神经 网 络 的 几何 意义 来 进行 具体 
分 析 。 


1. 隐 结 点 代表 的 直线 方程 


如 图 9. 12 所 示 ,利用 隐 结 点 的 权 值 和 阔 值 可 以 
建立 隐 结 点 代表 的 直线 方程 : 


yi: 5.24zl 十 5.23zz 一 8.01 王 0 

即 
X1 十 0.998zxs 一 1.529 二 0 (9.52》 
ya:6.68zi 十 6.64zs 一 2.98 一 0 

即 


x1tx-0.45=0 
图 9.12 隐 结 点 代表 的 直线 方程 


zl 十 0.994zs 一 0.446 一 0 (9.53) 

直线 y, 和 yw 将 平面 (zi ,zz ) 分 为 三 区 : 

。 yi 线 上 方 区 ,zi 十 zs 一 1.53 过 0,zi 十 zs 一 0.45 过 0 

。 yyy 线 之 间 区 ,zi 十 zs 一 1.53<<0,zi 十 zz 一 0.45 过 0 

。 yz 线 的 下 方 区 ,zi 十 zs 一 1.53<<0,z 十 zs 一 0.45<0 

对 样本 点 : 

。 点 (0,0) 落 入 ys 线 的 下 方 区 ,经 过 隐 结 点 作用 函数 f(x)( 暂 取 它 为 阶梯 函数 ) ,得 到 
输出 XI 一 0, yz 一 0。 

。 点 (1,0) 和 点 (0,1) 落 入 wm ,ys 线 之 间 区 ,经 过 隐 结 点 作用 函数 f(x) ,得 到 输出 均 为 
入 一 0 一 1。 

。 点 (1,1) 落 入 线 上 方 区 ,经 过 隐 结 点 作用 函数 f(x) ,得 到 输出 为 y1 二 1,ys 二 1。 

结论 : 隐 结 点 将 zi ,zs 平面 上 四 个 样本 点 (0,0),(0,1),(1,0),(1,1) 变 换 成 三 个 样本 

点 (0,0),(0,1),(1,1), 它 已 是 线性 样本 。 


2. 输出 结 点 代表 的 直线 方程 


如 图 9. 13 所 示 , 利 用 输出 结 点 的 权 值 和 阅 值 可 以 建立 隐 结 点 代表 的 直线 方程 : 
Z:—l0yn+1l0yC—4.79=0 
即 
一 yi 十 yz 一 0.479= 二 0 (9.54) 
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直线 Z 将 平面 (yi ,yz) 分 为 两 区 : 


。Z 线 上 方 区 : 一 yi 十 ys 一 0.479 之 0; 
。Z 线 下 方 区 : 一 yi 十 yz 一 0.479<<0。 
对 样本 点 : 


。 点 (0,1)( 即 yi 二 0,ys 二 1) 落 人 2Z 线 上 方 区 ， 
经 过 输出 结 点 作用 函数 f(z)( 暂 取 它 为 阶梯 
函数 ) 得 到 输出 为 : Z==1; 
点 (0,0)( 即 vy 二 0,ys 二 0), 点 (1,1)( 即 y= 
1,ys 一 1) 落 入 Z 线 下 方 区 ,经 过 输出 结 点 作 
用 函数 f(z) 得 到 输出 为 : Z==0。 

结论 : 输出 结 点 将 wm ,yz 平面 上 三 个 样本 (0,0),(0,1),(1,1) 变 换 成 两 类 样本 Z= 二 1 和 
Z=0; 


图 9.13 输出 结 点 代表 的 直线 方程 


3. 神经 网 络 结 点 的 作用 


从 上 面 的 分 析 中 可 以 得 出 结论 : 

@ 隐 结 点 作用 是 将 原 非 线性 样本 (四 个 ) 变 换 成 线性 样本 (三 个 )。 

@ 输出 结 点 作用 是 将 线性 样本 (三 个 ) 变 换 成 两 类 (1 类 或 0 类 )。 

对 于 作用 函数 f(x) 取 为 S 型 函数 ,最 后 变换 成 两 类 为 “接近 1 类 ”和 "“ 接 近 0 类 ”。 


4. 超 平面 (直线 ) 特 性 


(1) 隐 结 点 直线 特性 

隐 结 点 直线 y, ,ys 相互 平行 , 且 平行 于 过 (1,0) 点 和 (0,1) 的 直线 工 : zi 十 zs 一 1 一 0。 

直线 ww 位 于 点 (1,1) 到 直线 工 的 中 间 位 置 附近 (0 二 1. 53)。 

直线 y; 位 于 点 (0,0) 到 直线 工 的 中 间 位 置 附近 (0 二 0. 45) 。 

赣 值 0 和 0 可 以 在 一 定 范围 内 变化 : 1.0 三 9. 二 2,0 过 9, 二 1.0。 其 分 类 效果 是 相同 的 。 
这 说 明神 经 网 络 的 解 (网 络 权 值 和 国 值 ) 可 以 是 多 个 ( 即 多 条 不 同 的 直线 )。 

(2) 输出 结 点 直线 特性 

输出 结 点 直线 Z ,平行 于 过 点 (0,0) 和 点 (1,1) 直 线 P: yi 一 ys 二 0。 

直线 Z 位 于 点 (0,1) 到 直线 已 的 中 间 位 置 附近 (% 一 0. 48) 。 

闵 值 $ 可 以 在 一 定 范围 内 变化 (0 三 4 二 1) ,其 分 类 效果 是 相同 的 ,输出 层 的 权 值 和 赣 值 
也 是 多 解 。 


5. 超 曲面 神经 网 络 概念 
超 曲 面神经 网 络 是 相对 于 超 平面 神经 网 络 而 言 的 。 传 统 的 神经 网 络 是 以 MP 模型 为 基 
础 的 , 按 MP 模型 ,神经 网 络 的 公式 为 
O:=f( Daz; —0) i=1,2,.,n (9.55) 
表示 每 个 神经 网 络 元 O; 的 输入 天 代表 了 一 个 超 平面 (其 中 zx; 是 一 次 方 ) , 即 : 
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覆 皇 war; —0 =0 (9.56) 
神经 网 络 的 作用 函数 : 
1， Dwsz 一 入 二 0 
f(1) = f(D)wsri;—0) = (9.57) 
次 0， Dwszr;—0 <0 
相当 于 超 平面 I; 对 n 维 空间 进行 了 一 次 分 割 。 多 个 超 平面 I; (i 二 1,2,…,n) 对 n 维 空 
间 进 行 了 组 合 分 割 ,把 维 空间 分 成 了 若干 个 区 域 , 使 每 个 区 域 中 ,只 包含 同类 样本 。 这 种 
区 域 分 割 完成 了 一 次 变换 ,即将 非 线 性 样本 (不 能 用 一 个 超 平面 分 割 的 样本 ) 通 过 多 个 超 平 
面 的 分 割 使 它 变 成 了 线性 样本 。 对 新 的 线性 样本 ,再 通过 一 次 神经 网 络 ( 超 平面 ) 就 可 完成 
对 它 的 分 割 ( 分 类 )。BP 神经 网 络 模型 实质 上 就 是 通过 两 次 超 平面 分 割 ( 即 隐 结 点 层 和 输出 
结 点 层 ) 来 完成 样本 分 类 的 。 
BP 神经 网 络 是 反复 通过 神经 网 络 修改 权 值 的 迭代 ,最 后 找 出 隐 结 点 神经 网 络 超 平面 和 
输出 结 点 神经 网 络 超 平面 。 
除了 用 超 平面 分 割 空间 外 ,能 否 用 超 曲面 分 割 空 间 实 现 对 非 线 性 样本 的 分 割 呢 ?这 就 
要 求 神经 网 络 公 式 (9.55) 中 x; 变 成 二 次 方 以 上 。 
黄金 才 提 出 的 “ 超 圆 神经 网 络 模型 CC” 的 公式 : 
y=/f(2 a) —e) (9.58) 


该 神经 网 络 模型 与 MP 神经 网 络 模型 的 比较 ,如 图 9. 14 所 示 。 


人 >) 

-1 误 吉 
> 

MP 神经 元 对 样本 空间 的 划分 CC 神经 元 对 样本 空间 的 划分 
图 9.14 CC 模型 与 MP 模型 对 样本 空间 的 划分 比较 


他 还 提出 了 “ 超 曲 面神经 网 络 模 型 Cover” 的 公式 : 
y= fwrt wyt wr tt wry tt wsy’ CO— ce) (9.59) 
以 上 超 曲面 神经 网 络 有 效 地 达到 了 对 非 线 性 样本 的 分 类 效果 。 超 曲面 神经 网 络 是 对 神 
经 网 络 的 有 益 扩展 。 
近 几 年 发 展 起 来 的 支持 向 量 机 (support vector machines) 是 在 统计 学 习 理 论 的 基础 上 
直接 构造 这 些 超 平面 和 超 曲面 函数 (与 神经 网 络 无 关 ) ,来 完成 对 线性 和 非 线性 各 类 样本 的 
分 割 , 这 项 工作 已 经 取得 了 很 大 的 成 果 。 这 样 看 来 , 它 已 经 不 属于 神经 网 络 了 。 


习 题 9 


1. 说 明神 经 网 络 的 MP 模型 原理 。 
2. 对 比 感知 机 权 值 修正 公式 和 Hebb 规则 的 含义 。 
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3. 说 明 阶 梯 函 数 与 S 型 函数 的 相同 与 不 同 , 并 说 明 它 们 的 作用 。 
4. BP 模型 中 误差 公式 8 一 六 (net) >) 8， ws 的 含义 是 什么 ? 
5. 对 如 下 BP 神经 网 络 写 出 它 的 计算 公式 ( 含 学 习 公式 ) ,并 对 其 初始 权 值 以 及 样本 zl 


1,z2 一 0,d 一 0 进行 一 次 神经 网 络 计 算 和 学 习 ( 该 系数 /一 1, 各 点 阔 值 为 0) 。 


作用 函数 简化 为 


0.95， 工 0.45 
y= f(z) EF + 0.5， 0.45 过 zx 二 0.45 
0.05， 工 委 一 0. 45 
6. 编制 BP 网 络 模型 程序 ,完成 异 或 问题 的 计算 。 
7. 说 明 径 向 基 范 数 网 络 的 原理 。 
8. 比较 RBF 网 络 与 BP 网 络 在 修正 权 值 上 的 异同 。 
9. 神经 元 网 络 的 几何 意义 是 什么 ? 
10. 说 明 下 列 样本 是 什么 类 型 样本 ,为 什么 ? 


Cu 
输 入 输 出 
zl 72 d 
0 0 0 
0.5 0.5 | 
1 1 0 
(2) 
输 入 输 出 
xl 22 d 
0 0 0 
0.5 0 1 
1 1 0 


* 205 % 


遗传 算法 是 模拟 生物 进化 的 自然 选择 和 遗传 机 制 ,将 其 转换 成 数学 形式 的 遗传 算 子 , 通 
过 迭代 (遗传 ) 计 算 形 成 了 一 种 寻 优 算法 。 它 模拟 了 生物 的 繁殖 .交配 和 变异 现象 ,形成 了 选 
择 、 交 叉 ,变异 三 个 算 子 。 从 任意 一 初始 种 群 出 发 (问题 的 初始 解 ) ,产生 一 群 新 的 更 适应 环 
境 的 后 代 ( 问 题 的 新 解 )。 这 样 一 代 一 代 不 断 繁殖 、 进 化 (迭代 ) ,最 后 收敛 到 一 个 最 适应 环境 
的 个 体 上 (问题 的 最 终 解 )。 遗 传 算法 对 于 复杂 的 优化 问题 ,无 需 建立 像 运筹 学 中 的 数学 模 
型 并 进行 复杂 运算 ,只 需要 利用 遗传 算法 的 算 子 就 能 寻找 到 问题 的 最 优 解 或 满意 解 。 

自然 选择 学 说 认为 ,生物 要 生存 下 去 ,就 必须 进行 生存 斗争 。 生 存 斗 争 包 括 种 内 斗争 、 
种 间 斗 争 以 及 生物 跟 环 境 之 间 的 斗争 三 个 方面 。 在 生存 斗争 中 ,具有 有 利 变异 的 个 体 容易 
存活 下 来 ,并 且 有 更 多 的 机 会 将 有 利 变 异 传 给 后 代 ; 具 有 不 利 变异 的 个 体 就 容易 被 淘汰 , 产 
生 后 代 的 机 会 也 少 得 多 。 因 此 ,凡是 在 生存 斗争 中 获胜 的 个 体 都 是 对 环境 适应 性 比较 强 的 。 

达尔 文 把 这 种 在 生存 斗争 中 “ 适 者 生存 、 不 适 者 淘汰 ”的 过 程 叫做 自然 选择 。 自 然 选择 
学 说 表明 ,遗传 和 变异 是 决定 生物 进化 的 内 在 因素 。 遗 传 是 指 父 代 与 子 代 之 间 ,在 性 状 上 存 
在 的 相似 现象 。 变 异 是 指 父 代 与 子 代 之 间 ,以 及 子 代 个体 之 间 ,在 性 状 上 或 多 或 少 地 存在 的 
差异 现象 。 在 生物 体内 ,遗传 和 变异 的 关系 十 分 密切 。 一 个 生物 体 的 遗传 性 状 往往 会 发 生 
变异 ,而 变异 的 性 状 有 的 可 以 遗传 。 遗 传 能 使 生物 的 性 状 不 断 地 传送 给 后 代 , 因 此 保持 了 物 
种 的 特性 ,变异 能 够 使 生物 的 性 状 发 生 改 变 , 从 而 适应 新 的 环境 而 不 断 地 向 前 发 展 。 

生物 的 遗传 与 变异 有 它 的 物质 基础 。 遗 传 物质 的 主要 载体 是 染色 体 (Chromsome)。 
在 遗传 算法 中 称 为 个 体 , 它 是 数学 问题 的 解 (初始 解 、 中 间 解 .最 终 解 )。 染 色 体 主要 是 由 
DNA( 脱 氧 核 糖 核酸 ) 和 和 蛋白质 组 成 的 ,基因 (Gene) 是 染色 体 的 片段 , 它 储存 着 遗传 信息 ,可 
以 准确 地 复制 ,也 能 够 发 生 突 变 , 生 物体 自身 通过 对 基因 的 复制 (Reproduction) 和 交叉 
(CCrossover, 即 基因 自由 组 合 和 基因 连锁 互 换 ) 的 操作 实现 性 状 的 遗传 。 在 遗传 算法 中 的 个 
体 是 由 数学 问题 的 参数 组 成 ,通过 三 个 遗传 算 子 的 迭代 求 出 问题 的 最 优 解 。 


10.1.1 遗传 算法 基本 原理 
1. 概述 


遗传 算法 (Genetic Algorithms,GA) 是 一 种 基于 遗传 学 的 搜索 优化 算法 。 遗 传 学 认为 
遗传 是 作为 一 种 指令 码 封装 在 每 个 染色 体 个 体 中 ,并 以 基因 (位 ) 的 形式 包含 在 染色 体 ( 个 
体 ) 中 。 每 个 基因 有 特殊 的 位 置 并 控制 某 个 特殊 的 性 质 ,由 基因 组 成 的 个 体 对 环境 有 一 定 的 
适应 性 。 基 因 杂 交 和 基因 突变 能 产生 对 环境 适应 性 强 的 后 代 , 通 过 优胜 劣 汰 的 自然 选择 , 适 
应 值 高 的 基因 结构 就 保存 了 下 来 。 
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在 遗传 算法 中 必 染 色 体 ?对 应 的 是 问题 的 解 , 通 常 是 由 一 维 串 结构 的 数据 (问题 的 参数 
的 组 合 ) 来 表现 的 。 串 上 各 个 位 置 对 应 “基因 "(每 个 参数 ) ,而 各 位 置 上 的 值 对 应 基因 的 取 
值 。 基 因 组 成 的 串 就 是 染色 体 , 或 者 叫做 基因 型 个 体 (Individuals)。 一 定数 量 的 个 体 组 成 
了 群体 (Population)。 群 体 中 个 体 的 数目 称 为 群体 的 大 小 (Population size) ,也 叫 群 体 规 
模 。 而 各 个 体 对 环境 的 适应 程度 叫做 适应 度 (Fitness) 。 

遗传 算法 中 包含 两 个 必须 的 数据 转换 操作 ,一 个 是 把 搜索 空间 中 数学 问题 参数 的 组 合 
的 解 转换 成 遗传 空间 中 的 个 体 ( 染 色 体 ) ,此 过 程 又 


叫做 编码 (Coding) 操 作 ; 另 一 个 是 相反 的 操作 ,叫做 这 证 
译 码 (Decoding) 操 作 。 目标 (函数 ) 映 身 
遗传 算法 是 一 种 群体 型 操作 ,该 操作 以 群体 中 的 为 适应 值 (函数 ) 
所 有 个 体 为 对 象 。 选 择 (Selection)、 交 叉 (Crossover) i 
和 变异 (Mutation) 是 遗传 算法 的 三 个 主要 操作 算 子 ， (编码 成 位 串 形式 ) 
它们 构成 了 遗传 操作 (Genetic Operation) ,使 遗传 算 1 
法 具有 其 他 传统 方法 所 没有 的 特性 。 [和 从 
遗传 算法 的 处 理 流程 如 图 10. 1 所 示 。 
遗传 算法 首先 将 问题 的 每 个 可 能 的 解 按 某 种 形 Ee 


式 进行 编码 ,编码 后 的 解 称 为 染色 体 ( 个 体 )。 随 机 
选取 N 个 染色 体 构 成 初始 种 群 ,再 根据 预定 的 评价 
函数 对 每 个 染色 体 计算 适应 值 ,使 得 性 能 较 好 的 染 
色 体 具有 较 高 的 适应 值 。 选 择 适应 值 高 的 染色 体 进 
行 复制 ,通过 遗传 算 子 : 选择 、 交 又 (重组 )、 变 异 ,来 
产生 一 群 新 的 更 适应 环境 的 染色 体 , 形 成 新 的 种 群 。 
这 样 一 代 一 代 不 断 繁殖 、 进 化 ,最 后 收敛 到 一 个 最 适 ”一 了 1 产生 新 一 代 种 群 
应 环境 的 个 体 上 , 求 得 问题 的 最 优 解 。 图 10.1 遗传 算法 的 处 理 流程 示意 图 


2. 遗传 算法 中 的 基本 要 素 


遗传 算法 中 包含 了 如 下 五 个 基本 要 素 : 四 问题 编码 ; 加 初始 群体 的 设 定 ; @ 适 应 值 函 
数 的 设计 ; 四 遗传 操作 设计 ; @@ 控 制 参数 设 定 ( 主 要 是 指 群 体 大 小 和 使 用 遗传 操作 的 概率 
等 )。 这 五 个 要 素 构成 了 遗传 算法 的 核心 内 容 。 

(1) 问题 编码 

将 子 串 拼 接 起 来 构成 "染色 体位 串 。 但 是 不 同 串 长 和 不 同 的 码 制 , 对 问题 求解 的 精度 
和 遗传 算法 收敛 时 间 会 有 很 大 影响 。 如 何 将 问题 描述 成 串 的 形式 就 不 那么 简单 ,而 且 同 一 
问题 可 以 有 不 同 的 编码 方法 。 

常用 的 二 进 制 编码 方式 是 基于 确定 的 二 进 制 位 串 上 : 1 二 (0,1)*。 目 前 也 出 现 了 其 他 
编码 方式 ,如 用 向 量 (向 量 元 素 为 实数 ) 来 表示 染色 体 ,或 者 用 规则 形式 (规则 A, 规 则 B, 规 
则 C,…) 来 表示 染色 体 。 

(2) 初始 群体 的 生成 

遗传 算法 是 群体 型 操作 ,这样 必须 为 遗传 操作 准备 一 个 由 若干 初始 解 组 成 的 初始 群体 。 
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初始 群体 的 每 个 个 体 都 是 通过 随机 方法 产生 的 。 初 始 群体 也 称 作 为 进化 的 初始 代 , 即 第 一 
代 (first generation ) 。 

(3) 适应 值 函 数 的 确定 

遗传 算法 在 搜索 进化 过 程 中 一 般 不 需要 其 他 外 部 信息 , 仅 用 评价 函数 值 来 评价 个 体 或 
解 的 优先 ,并 作为 以 后 遗传 操作 的 依据 。 评 价 函 数值 又 称 做 适应 值 (fitness) 。 

适应 值 函数 ( 即 评价 函数 ) 是 根据 目标 函数 确定 的 。 适 应 值 总 是 非 负 的 ,任何 情况 下 总 
是 希望 越 大 越 好 。 一 般 目 标 函 数 有 正 有 人 负 , 且 和 适应 值 之 间 的 关系 也 是 多 种 多 样 的 。 例 如 
求 最 大 值 时 ,目标 函数 与 适应 值 变 化 方向 一 致 ,而 求 最 小 值 时 ,变化 方向 正好 相反 。 因 此 , 存 
在 目标 函数 到 适应 值 函数 的 映射 问题 ,常见 的 映射 形式 为 

$la) = 6(f (rl(a))) 

其 中 ,a 为 个 体 ;r(a) 为 个 体 的 译 码 函数 ;了 则 为 具体 求解 问题 的 表达 式 ;6 为 变换 函数 ,6 的 
作用 是 确保 适应 值 为 正 ,并 且 最 好 的 个 体 其 适应 值 最 大 。 适 应 值 函 数 的 选取 至 关 重 要 , 它 直 
接 影响 到 算法 的 收敛 速度 即 最 终 能 否 找 到 最 优 解 。 函 数 优化 问题 可 直接 将 函数 本 身 作为 评 
价 函数 。 而 对 于 复杂 系统 的 评价 函数 一 般 不 那么 直观 ,往往 需要 研究 者 自己 构造 出 能 对 解 
的 性 能 进行 评价 的 函数 。 

为 了 使 遗传 算法 有 效 地 工作 ,必须 保持 种 群 内 位 串 的 多 样 性 和 位 串 之 间 的 竞争 机 制 。 
如 果 将 遗传 算法 的 运行 分 为 开始 .中 间 和 结束 三 个 阶段 ,在 开始 阶段 , 若 一 个 规模 不 太 大 的 
种 群 内 有 少数 非凡 的 个 体 ( 适 应 值 很 高 的 位 串 ) 的 话 , 按 通常 的 选择 方法 ,这 些 个 体会 被 大 量 
繁殖 ,在 种 群 中 占有 较 大 的 比重 ,这 样 就 会 减少 种 群 的 多 样 性 ,导致 过 早 收敛 ,从 而 可 能 丢失 
一 些 有 意义 的 搜索 点 或 最 优点 ,而 陷入 局 部 最 优 。 其 次 ,在 结束 阶段 ,即使 种 群 内 保持 了 很 
大 的 多 样 性 ,但 车 所 有 或 大 多 数 个 体 都 有 很 高 的 适应 值 ,从 而 种 群 平均 适应 值 和 最 大 适应 值 
相差 无 几 ,那么 平均 适应 值 附近 的 个 体 和 具有 最 高 适应 值 的 个 体 被 选中 的 机 会 几乎 相同 ,这 
样 选 择 就 成 了 一 个 近乎 随机 的 步骤 ,适应 值 的 作用 就 会 消失 ,从 而 搜索 性 能 得 不 到 明显 改 
进 。 因 此 ,有 必要 对 种 群 内 各 位 串 的 适应 值 进行 有 效 的 调整 , 既 不 能 相差 太 大 ,又 要 拉 开 档 
次 ,强化 位 串 之 间 的 竞争 性 。 最 常见 的 调整 方法 是 线性 调整 法 。 


10.1.2 遗传 算 子 


遗传 算法 的 执行 过 程 中 ,每 一 代 有 许多 不 同 的 染色 体 (个 体 ) 同 时 存在 ,这些 染色 体 中 哪 
个 保留 (生存 ) 、 哪 个 淘汰 (死亡 ) 是 根据 它们 对 环境 的 适应 能 力 决定 的 ,适应 性 强 的 有 更 多 的 
机 会 保留 下 来 。 适 应 性 强 弱 是 通过 计算 个 体 适 应 值 函数 f(x) 的 值 来 判别 的 ,这 个 值 称 为 适 
应 值 (fitness)。 适 应 值 函 数 f(z) 的 构成 与 目标 函数 有 密切 关系 ,往往 是 目标 函数 的 变种 。 
主要 的 遗传 算 子 有 如 下 几 种 。 


1. 选择 (Selection) 算 子 


它 又 称 复制 (reproduction) 、 繁 殖 算 子 。 
选择 是 从 种 群 中 选择 生命 力 强 的 染色 体 产生 新 种 群 的 过 程 。 依 据 每 个 染色 体 的 适应 值 
大 小 来 确定 ,适应 值 越 大 ,被 选中 的 概率 就 越 大 ,其 子孙 在 下 一 代 产 生 的 个 数 就 越 多 。 
选择 操作 是 建立 在 群体 中 个 体 的 适应 值 评价 基础 上 的 ,目前 常用 的 选择 算 子 有 以 下 
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几 种 。 
(1) 适应 值 比例 法 
适应 值 比例 法 是 目前 遗传 算法 中 最 常用 的 选择 方法 。 它 也 叫 赌 轮 或 蒙特 卡 罗 (Monte 
Carlo) 选 择 。 在 该 方法 中 ,各 个 个 体 的 选择 概率 和 其 适应 值 成 比例 。 
设 群 体 大 小 为 ,其 中 个 体 i 的 适应 值 为 f;. 则 i 被 选择 的 概率 P; 为 
二 (10.1) 
显然 ,概率 P; 反映 了 个 体 i 的 适应 值 在 整个 群体 的 个 体 适 应 值 的 总 和 中 所 占 的 比例 。 
个 体 适应 值 越 大 ,其 被 选择 的 概率 就 越 高 。 按 式 (10.1) 计 算出 群体 中 各 个 个 体 的 选择 概率 
后 ,就 可 以 决定 哪些 个 体 被 选 出 。 
(2) 最 佳 个 体 保存 法 
该 方法 的 思想 是 把 群体 中 适应 度 最 高 的 个 体 不 进行 配对 交叉 而 直接 复制 到 下 一 代 中 。 
此 种 选择 操作 又 称 复 制 (copy) 。 
设 在 第 t 代 中 ,群体 中 a* (7) 为 最 佳 个 体 。 而 在 A(z 十 1) 新 一 代 群 体 中 不 存在 a* (7)， 
则 把 a* (7) 作为 ACG 二 1) 中 的 第 2 十 1 个 个 体 ( 其 中 为 群体 大 小 ) 。 
采用 此 选择 方法 的 优点 是 ,进化 过 程 中 某 一 代 的 最 优 解 可 不 被 交叉 和 变异 操作 破坏 。 
会 使 进化 有 可 能 限于 局 部 解 , 即 它 更 适合 单 峰 性 质 的 空间 搜索 。 一 般 它 都 与 其 他 选择 
法 结合 使 用 。 
(3) 期 望 值 方法 
Q 计算 群体 中 每 个 个 体 在 下 一 代 生 存 的 期 望 数目 ， 
M= fi/F= fi/ Dfiln (10. 2) 
@ 若 某 个 体 被 选中 并 要 参与 配对 和 交叉 , 则 它 在 下 一 代 中 的 生存 的 期 望 数目 减 去 0. 5， 
若 不 参与 配对 和 交叉 , 则 该 个 体 的 生存 期 望 数目 减 去 1。 
@ 在 @ 的 两 种 情况 中 , 若 一 个 个 体 的 期 望 值 小 于 零 , 则 该 个 体 不 参与 选择 。 
对 比 实验 表明 ,采用 期 望 值 法 的 性 能 高 于 前 两 种 方法 的 性 能 。 
(4) 排序 选择 方法 
所 谓 排 序 选 择 方法 是 指 在 计算 每 个 个 体 的 适应 值 后 ,根据 适应 值 大 小 顺序 对 群体 中 个 体 
排序 ,然后 把 事先 设计 好 的 概率 表 按 序 分 配给 个 体 , 作 为 各 自 的 选择 概率 。 所 有 个 体 按 适 应 值 
大 小 排序 ,而 选择 概率 和 适应 值 无 直接 关系 而 仅 与 序号 有 关 。 这 种 方法 的 不 足 之 处 在 于 选择 
概率 和 序号 的 关系 必须 事先 确定 。 此 外 , 它 和 适应 值 比例 法 一 样 ,都 是 一 种 基于 概率 的 选择 。 
(5) 比例 排序 法 
将 比例 法 和 排序 法 结合 起 来 的 比例 排序 法 , 即 当 群体 中 某 个 染色 体 的 适应 值 远 远大 于 
其 他 染色 体 的 适应 值 或 群体 中 每 个 染色 体 的 适应 值 相似 时 , 按 排序 法 进行 后 代 选 择 , 而 在 一 
般 情 形 下 采用 比例 法 进行 后 代 选 择 。 这 样 既 能 利用 两 种 方法 各 自 的 优点 ,又 弥补 了 两 种 方 
法 各 自 的 缺点 。 


2. 交叉 (Crossover) 算 子 


它 又 称 重组 (recombination) .配对 (breeding) 算 子 。 
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当 许多 染色 体 相同 或 者 后 代 的 染色 体 与 上 一 代 没 有 多 大 差别 时 ,可 通过 染色 体重 组 来 
产生 新 一 代 染 色 体 。 染 色 体 重组 是 分 两 步 进 行 的 ,首先 在 新 复制 的 群体 中 随机 选取 两 个 个 
体 ,然后 , 沿 着 这 两 个 个 体 (字符 串 ) 随 机 地 取 一 个 位 置 , 二 者 互 换 从 该 位 置 起 的 末尾 部 分 。 
例如 ,有 两 个 用 二 进 制 编码 的 个 体 A 和 B。 长 度 L==5,A 二 aiazsasasas，B 二 610;03b4bs 随机 
选择 一 整数 kE[1,L 一 1], 设 & 二 4, 经 交叉 后 变 为 

A=aiazsas|asas A’=aiazasbsbs 
B=bbbslbbs  B’=bbbsasas 

遗传 算法 的 有 效 性 主要 来 自选 择 和 交叉 操作 ,尤其 是 交叉 ,在 遗传 算法 中 起 着 核心 
作用 。 

目前 有 如 下 几 种 基本 交叉 方法 。 

《六 三 -点 交叉 

一 点 交叉 又 叫 简单 交叉 。 具 体操 作 是 : 在 个 体 串 中 随机 设 定 一 个 交叉 点 。 实 行 交 叉 
时 ,该 点 前 或 后 的 两 个 个 体 的 部 分 结构 进行 互 换 , 并 生成 两 个 新 个 体 ( 如 上 例 )。 

(2) 二 点 交叉 

二 点 交叉 的 操作 与 一 点 交叉 类 似 , 只 是 设置 两 个 交叉 点 (依然 是 随机 设 定 ) 。 一 个 二 点 
交叉 的 例子 表示 如 下 : 


个 体 A 10 ; 110 3 11 一 -1001011 新 个 体 A’ 
配对 个 体 ”个体 B 00 ; 010 : 00 一 >0011000 新 个 体 B 
交叉 点 1 交叉 点 2 
由 此 可 见 ,2 个 交叉 点 分 别 设 定 在 第 二 个 基因 位 和 第 三 个 基因 位 之 间 以 及 第 五 个 基因 
位 和 第 六 基因 位 之 间 。A、B 两 个 体 在 这 两 个 交叉 点 之 间 的 码 串 相互 交换 ,分 别 生成 新 个 体 
A' 和 B’。 对 于 二 点 交叉 而 言 , 若 染色 体 长 为 n, 则 可 能 有 (n 一 2)(n 一 3) 种 交叉 点 的 设置 。 
(3) 多 点 交叉 
多 点 交叉 是 前 述 两 种 交叉 的 推广 .有 时 又 被 称 为 广义 交叉 (generalized crossover) 。 
一 般 来 讲 , 多 点 交叉 较 少 采用 ,因为 它 会 影响 遗传 算法 的 性 能 , 即 多 点 交叉 不 能 有 效 地 
保存 重要 的 模式 。 
(4) 一 致 交叉 
所 谓 一 致 交叉 是 指 通过 设 定 屏蔽 字 (Cmask) 来 决定 新 个 体 的 基因 继承 两 个 旧 个 体 中 哪 
个 个 体 的 对 应 基因 。 一 致 交叉 的 操作 过 程 表示 如 下 : 当 屏蔽 字 位 为 0 时 ,新 个 体 A” 继承 旧 
个 体 A 中 对 应 的 基因 , 当 屏 蔽 字 位 为 1 时 ,新 个 体 A” 继承 旧 个 体 B 中 对 应 的 基因 ,由 此 生 
成 一 个 完整 的 新 个 体 A”。 反 之 ,可 生成 新 个 体 B' 。 显 然 , 一 致 交叉 包括 在 多 点 交叉 范围 
内 。 一 个 一 致 交叉 的 例子 表示 如 下 : 
旧 个 体 A 001111 
旧 个 体 B 111100 
屏蔽 字 010101 
新 个 体 A” 011110 
新 个 体 B” 101101 
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3. 变异 (Mutation) 算 子 


选择 和 交叉 算 子 基本 上 完成 了 遗传 算法 的 大 部 分 搜索 功能 ,而 变异 则 增加 了 遗传 算法 
找到 接近 最 优 解 的 能 力 。 变 异 就 是 以 很 小 的 概率 ,随机 地 改变 字符 串 某 个 位 置 上 的 值 。 变 
异 操作 是 按 位 (bit) 进 行 的 , 即 把 某 一 位 的 内 容 进行 变异 。 在 二 进 制 编码 中 ,就 是 将 某 位 0 
变 成 1,1 变 成 0。 变异 发 生 的 概率 即 变异 概率 P,, 都 取得 很 小 (一 般 在 0.001 一 0.02 之 间 )， 
它 本 身 是 一 种 随机 搜索 ,然而 与 选择 ,交叉 算 子 结合 在 一 起 ,就 能 避免 由 于 复制 和 交叉 算 子 
而 引起 的 某 些 信息 的 永久 性 丢失 ,保证 了 遗传 算法 的 有 效 性 。 

遗传 算法 引入 变异 的 目的 有 两 个 : 一 是 使 遗传 算法 具有 局 部 的 随机 搜索 能 力 。 当 遗传 
算法 通过 交 又 算 子 已 接近 最 优 解 邻 域 时 ,利用 变异 算 子 的 这 种 局 部 随机 搜索 能 力 就 可 以 加 
速 向 最 优 解 收 剑 。 显 然 , 此 种 情况 下 的 变异 概率 应 取 较 小 值 ,否则 接近 最 优 解 的 模式 会 因 变 
异 而 遭 到 破坏 。 二 是 使 遗传 算法 可 维持 群体 多 样 性 ,以 防止 出 现 未 成 熟 收敛 现象 。 此 时 变 
异 概率 应 取 较 大 值 。 

(1) 基本 变异 算 子 

基本 变异 算 子 是 指 对 群体 中 的 个 体 码 串 随机 挑选 一 个 或 多 个 基因 位 并 对 这 些 基 因 位 的 
基因 值 作 变动 (以 变异 概率 P。 做 变动 );。{0,1) 二 值 码 串 中 的 基本 变异 操作 如 下 : 


变异 
个 体 4 1011011 一 一 一 一 一 1110011 个 体 4' 


变异 基因 位 
(2) 逆转 算 子 
逆转 算 子 是 变异 算 子 的 一 种 特殊 形式 。 它 的 基本 操作 内 容 是 : 在 个 体 码 串 中 随机 挑选 
两 个 逆转 点 ,然后 将 两 个 逆转 点 间 的 基因 值 以 逆转 概率 P; 逆向 排序 。{0,.1} 二 值 码 串 的 逆 
转 操 作 如 下 : 


个 体 4 10 a 1001011 00 个 体 4" 
逆转 点 

由 此 可 见 , 通 过 逆转 操作 ,个体 中 从 基因 位 3 至 基因 位 7 之 间 的 基因 排列 得 到 逆转 , 即 
从 11010 序列 变 成 了 01011 序列 。 这 一 逆转 操作 可 以 等 效 为 一 种 变异 操作 ,但 是 逆转 操作 
的 真正 目的 并 不 是 变异 (否则 仅 用 变异 操作 就 行 了 ) 而 是 实现 一 种 重新 排序 操作 。 所 谓 重新 
排序 是 指 对 个 体 中 基因 排列 所 进行 重新 组 合 , 但 并 不 影响 该 个 体 的 特征 。 在 自然 界 生 物 的 
基因 重组 中 就 有 这 种 重新 排序 的 机 制 。 对 遗传 算法 而 言 ,采用 这 种 重新 排序 ,目的 是 提高 积 
木 块 (高 适应 度 个 体 ) 的 繁殖 率 。 实 际 上 ,在 用 遗传 算法 求解 某 些 问题 时 ,群体 中 的 有 些 个 体 
的 基因 排序 常常 会 出 现 这 样 的 情况 , 即 对 形成 积木 块 有 用 的 某 些 基因 分 离 较 远 , 此 时 采用 一 
般 的 交叉 会 破坏 相应 的 积木 块 的 生成 。 因 此 ,有 必要 对 这 些 基 因 进 行 重新 排序 但 又 不 损 整 
个 个 体 的 特征 ( 即 适应 值 )。 

(3) 自 适 应 变异 算 子 

该 算 子 与 基本 变异 算 子 的 操作 内 容 类 似 , 唯 一 不 同 的 是 变异 概率 P, 不 是 固定 不 变 的 ， 
而 是 随和 群体 中 个 体 的 多 样 性 程度 而 自 适应 调整 。 一 般 是 根据 交叉 所 得 两 个 新 个 体 的 海 明 距 
离 进行 变化 。 海 明 距 离 越 小 ,P。 越 大 ,反之 P。 越 小 。 
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遗传 算法 中 ,交叉 算 子 因 其 全 局 搜索 能 力 而 作为 主要 算 子 ,变异 算 子 因 其 局 部 搜索 能 力 
而 作为 辅助 算 子 。 遗 传 算法 通过 交叉 和 变异 这 一 对 相互 配合 又 相互 竞争 的 操作 而 使 其 具备 
兼顾 全 局 和 局 部 的 均衡 搜索 能 力 。 所 谓 相 互 配合 .是 指 当 群 体 在 进化 中 陷于 搜索 空间 中 某 
个 超 平面 而 仅 靠 交 叉 不 能 摆脱 时 ,通过 变异 操作 可 有 助 于 这 种 摆脱 。 所 谓 相互 竞争 ,是 指 当 
通过 交叉 已 形成 所 期 望 的 模式 时 ,变异 操作 有 可 能 破坏 这 些 模式 。 因 此 ,如 何 有 效 地 配合 使 
用 交叉 和 变异 操作 ,是 目前 一 个 重要 的 研究 内 容 。 
10.1.3 遗传 算法 简 例 

问题 : 求解 f(z) 二 x? 在 [0,31] 上 的 最 大 值 。 

1. 初始 种 群 

(1) 编码 : 用 五 位 二 进 制 表示 xz, 有 

X=0>00000 z=31 一 11111 

(2) 初始 种 群 

随机 产生 4 个 个 体 : 13,24,8,19( 分 别 用 二 进 制 表示 ) 

(3) 适应 值 fi; 

直接 用 目标 函数 作为 适应 值 : f (x) 二 

Q@ 非 负 ， @ 逐步 增 大 

(4) 选择 率 p, 和 期 望 值 

选择 率 : ys i 

平均 适应 值 : f = >) fi/n 

期 望 值 : f;/f 

(5) 实 选 值 

期 望 值 取 整数 ,具体 计算 如 表 10. 1 所 示 。 

表 10.1 初始 种 群 参数 计算 


编号 。 | 初始 种 群 位 中 | 参数 值 = 值 | 中 2 期 望 值 /了 | 实 选 人 

1 01101 13 169 0.14 0.58 1 

2 11000 24 576 0.49 EB 2 

3 01000 8 64 0.06 0.22 0 

4 i10011 ED 361 0.31 下 全 1 
总 和 >， 1170 1.00 4. 00 4.0 
平均 值 293 0. 25 1.00 1.0 
最 大 值 576 0.49 9 2.0 


2. 遗传 第 一 代 
参数 计算 如 表 10. 2 所 示 。 
表 10.2 ”初始 种 群 遗传 过 程 


Www tt nb et 新 次 种 各 Wd 
i 1 2 4 01100 12 144 
L100 0 1 4 io0l 25 625 
11000 4 2 下 27 729 
人 3 2 10000 16 256 
总 和 >， 1754 
平均 值 439 
最 大 值 729 


具体 说 明 如 下 : 

(1) 选择 (繁殖 ) 

在 种 群 中 , 实 选 值 (期 望 值 ) 高 者 多 繁殖 ; 实 选 值 (期 望 值 ) 低 者 少 繁殖 或 不 繁殖 。 繁殖 
(复制 ) 的 个 体 放 入 交配 池 中 。 

(2) 交叉 

随机 选择 交配 对 象 (相同 个 体 不 交配 ) ,如 个 体 1 和 2,3 和 4。 随 机 选择 交叉 点 进行 交叉 。 

(3) 变异 

取 变 异 概率 P. 二 0.01, 表 示 每 100 个 体 中 有 一 个 个 体 的 一 位 发 生变 异 。 上 例 中 未 进行 
个 体 变异 。 

遗传 得 到 的 新 的 种 群 ,其 平均 值 和 最 大 值 都 有 很 大 提高 。 

均值 : 293 一 439 

最 大 值 : 576 一 729 

新 种 群 中 四 个 个 体 , 有 2 个 变 好 : 25,25; 有 2 个 变 坏 : 12,16。 


3. 遗传 第 二 代 
新 种 群 的 参数 计算 如 表 10. 3 所 示 ,新 种 群 的 遗传 过 程 如 表 10. 4 所 示 。 
表 10.3 新 种 群 参数 计算 


编号 | 初始 种 群 位 囊 | 参数 值 值 Ee ys 期 望 值 /了 | 实 选 值 
1 01100 12 144 0.08 0.33 0 
多 L100 25 625 0. 36 4 1 
a 是 刘 役 业 灿 27 729 0.42 1.66 全 


"人 


编号 | 初始 种 群 位 中 | 参数 值 = 值 | 人 ys 期 望 值 /了 | 实 选 人 
4 10000 16 256 0.15 0.58 1 
总 和 》) 1754 1.00 4.00 4.0 
平均 值 439 0. 25 1.00 li 
最 大 值 729 0.42 1.66 2 


表 10.4 新 种 群 的 遗传 过 程 


( 划 级 部 分 交叉 ， | ( 隐 机 各 拓 | ( 隐 机关 所 | 新 交 和 县 | | /9 
二 : 涟 重 2 1 本 | 27 729 
下 ,| 1 和 a | 25 625 
1 | 4 3 1 L000 24 576 
100 00 3 3 | 19 361 
总 和 >， 2291 
平均 值 572 
最 大 值 729 


单纯 用 交叉 而 没有 用 变异 , 则 遗传 多 少 代 是 得 不 到 最 优 解 31(11111)。 主 要 是 第 三 位 
所 有 个 体 都 是 0, 这样 只 能 得 到 27(11011) 次 优 解 。 
若 在 第 四 位 中 挑选 一 个 个 体 进行 变异 ,由 0 变 成 1, 再 进行 遗传 将 会 得 到 最 优 解 。 


10.1.4 遗传 算法 的 特点 


遗传 算法 是 模拟 自然 选择 和 生物 遗传 机 制 的 优化 算法 ,利用 三 个 遗传 算 子 产生 后 代 , 通 
过 群体 的 迭代 ,使 个 体 的 适应 性 不 断 提 高 ,最 终 群 体 中 适应 值 最 高 的 个 体 即 是 优化 问题 的 最 
优 或 次 优 解 。 遗 传 算法 与 传统 的 优化 方法 有 不 同 的 特点 。 


1. 遗传 算法 是 进行 群体 的 搜索 


传统 的 优化 方法 是 从 一 个 点 开始 搜索 。 例 如 疏 山 法 (Climbing) 是 从 当前 点 邻近 的 点 中 
选 出 新 点 ,如 果 新 点 的 目标 函数 值 更 好 ,那么 该 新 点 就 变 成 当前 点 ,否则 就 选择 和 测试 其 他 
邻近 点 。 如 果 目 标 函 数值 没有 更 进一步 地 改进 , 则 算法 终止 。 很 显然 ,爬山 法 只 能 提供 局 部 
最 优 解 , 它 依赖 于 初始 点 的 选择 。 

遗传 算法 是 对 多 个 个 体 进行 群体 的 搜索 , 即 在 问题 空间 中 不 同 区 域 进行 搜索 ,构成 一 个 
不 断 进 化 的 群体 序列 。 对 于 复杂 问题 的 多 峰 情 况 ,遗传 算法 也 能 以 很 大 的 概率 找到 全 局 最 
优 解 。 
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2. 遗传 算法 是 一 种 随机 搜索 方法 


遗传 算法 使 用 三 个 遗传 算 子 ,选择 算 子 通过 选择 概率 复制 个 体 。 交 叉 算 子 通过 交叉 概 
率 在 交配 池 中 决定 配对 的 个 体 是 否 需要 进行 交叉 操作 。 变 异 算 子 通过 变异 概率 确定 某 些 基 
因 位 上 值 进行 变异 。 可 见 , 三 个 遗传 算 子 都 是 随机 操作 ,能 产生 好 的 后 代 , 引 导 其 搜索 过 程 
朝 着 更 优化 的 解 空间 移动 。 可 见 遗 传 算法 虽然 是 一 个 随机 搜索 方法 ,但 它 是 高 效 有 方向 的 
搜索 ,而 不 是 一 般 随 机 搜索 方法 那 种 无 方向 的 搜索 。 


3. 遗传 算法 处 理 的 对 象 是 个 体 , 而 不 是 参 变量 自身 


遗传 算法 要 求 将 优化 问题 的 参 变量 编码 成 长 度 有 限 的 位 串 个 体 , 即 参 变量 是 个 体 的 组 
成 部 分 。 通 过 遗传 算 子 的 随机 变换 操作 位 串 个 体 ,并 从 中 找 出 高 适应 值 的 位 串 个 体 。 遗 传 
算法 不 是 对 参数 变量 进行 直接 操作 。 

编码 操作 可 直接 对 结构 对 象 进行 操作 。 结 构 对 象 泛 指 集 合 、 序 列 、 和 矩阵 、 树 、 图 、 链 和 表 
等 一 维 或 二 维 结构 形式 的 对 象 。 这 一 特点 使 得 遗传 算法 具有 广泛 的 应 用 领域 。 


4. 遗传 算法 不 需要 导数 或 其 他 辅助 信息 


一 般 传 统 的 搜索 算法 需要 一 些 辅助 信息 ,如 梯度 算法 需要 求 导 数 , 当 这 些 信息 不 存在 时 
(如 函数 不 连续 时 ) ,这 些 算法 就 失效 。 而 遗传 算法 只 需要 适应 值 信息 ,用 它 来 评估 个 体 , 引 
导 搜 索 过 程 朝 着 搜索 空间 的 更 优化 的 解 区 域 移动 。 


5. 隐 含 并 行 性 


遗传 算法 实质 上 是 模式 的 运算 。 对 于 一 个 长 度 为 /的 串 , 其 中 隐 含 着 2' 个 模式 。 若 群 
体 规模 为 2 则 其 中 隐 含 的 模式 个 数 介 于 2 和 nn。2' 之 间 。Holland 指出 ,遗传 算法 实际 上 
是 对 n 个 位 串 个 体 进行 运算 ,但 却 隐 含 地 处 理 了 大 量 的 模式 ,这 一 性 质 称 为 隐 含 并 行 性 
(implicit parallelism) 。 


隐 含 的 并 行 性 是 遗传 算法 优 于 传统 的 搜索 方法 的 关键 所 在 。 


10.2 基于 遗传 算法 的 分 类 学 习 系 统 


10.2.1 概述 


1978 年 Holland 等 实现 了 第 一 个 基于 遗传 算法 的 机 器 学 习 系 统 CS-1。 该 系统 由 消息 

表 (message list) ,分 类 器 (classifier) 的 字符 串 规则 、 遗 传 算法 及 一 个 信息 分 配 机 制 组 成 。 他 

还 提出 了 桶 队 (bueket brigade) 算 法 。1980 年 Smith 实现 了 分 类 器 系统 LS-1。 尽 管 LS-1 

诞生 于 CS-1 之 后 ,但 LS-1 系统 在 若干 重要 的 方面 与 CS-1 有 根本 性 的 差别 。 具 体 表现 在 字符 
串 规 则 .染色体 表示 方法 .搜索 结构 的 形成 以 及 遗传 操作 算 子 的 应 用 上 。LS-1 系统 影响 更 大 。 

分 类 器 系统 是 一 种 对 字符 串 规则 (又 称 分 类 器 ) 的 学 习 系 统 , 它 由 规则 与 消息 (rule and 

message) 系统 ,信任 分 配 (apportionment of credit) 系 统 及 遗传 算法 三 个 主要 部 分 组 成 ,其 中 规 
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则 与 消息 系统 是 产生 式 系 统 的 一 种 特殊 形式 。 产 生 式 规则 的 一 般 形 式 为 : 正二 condition 盖 
THEN<action 之 。 它 具有 计算 完备 性 , 且 其 描述 也 较 方便 ,一 条 规则 或 一 个 规则 集 往往 能 
将 一 种 复杂 的 情况 非常 紧凑 地 描述 出 来 。 因 而 它 为 众多 的 专家 系统 所 采用 。 在 分 类 器 系统 
中 ,对 产生 式 规则 的 语法 做 了 很 大 的 限制 ,采用 了 定 长 的 表示 形式 ,从 而 适 于 采用 遗传 操作 。 

传统 的 专家 系统 在 每 一 次 匹配 中 采用 单条 规则 激活 的 串 行 运行 方式 。 分 类 器 系统 采用 
了 并 行 激活 方式 , 即 在 每 一 匹配 周期 , 它 允 许多 条 规则 被 同时 激活 ,只 有 在 出 现 两 个 互 斥 的 
动作 或 当 匹 配 的 规则 集 大 小 超出 消息 表 的 容量 时 , 才 考虑 规则 的 选择 问题 。 

传统 的 专家 系统 中 的 规则 和 规则 相应 的 重要 程度 (Strength) 是 事先 由 程序 设计 者 根据 
专家 经 验 给 出 的 ,是 固定 不 变 的 。 而 分 类 器 系统 是 一 个 自 适应 的 学 习 系 统 ,获取 的 规则 和 相 
应 的 重要 程度 是 不 固定 的 。 


10.2.2 遗传 分 类 学 习 系统 GCLS 的 基本 原理 


我 们 研制 了 一 种 新 的 遗传 分 类 器 学 习 系 统 (Genetic Classifier Learning System， 
GCLS) ,与 基本 的 分 类 器 系统 相 比 ,GCLS 系统 采用 了 训练 和 测试 同时 进行 的 策略 ,使 得 系 
统 能 够 在 训练 后 继续 学 习 , 从 而 能 更 好 地 适应 不 断 变化 的 客观 环境 。GCLS 系统 还 设计 了 
工作 和 精练 两 种 不 同 的 分 类 器 ,通过 精练 分 类 器 中 对 规则 的 进一步 处 理 ,减少 了 所 获 规则 的 
宛 余 性 。GCLS 系统 中 设计 的 信任 分 配 机 制 可 有 效 地 处 理 训练 样本 带 有 噪声 和 异常 特例 等 
问题 ,同时 体现 了 规则 与 训练 样本 的 统计 规律 ,使 得 判别 结果 容易 用 背景 知识 进行 定性 、 定 
量 相 结合 的 解释 ,从 而 可 获得 与 客观 环境 相 容 的 判别 规则 。 


1.GCLS 系统 结构 
遗传 分 类 学 习 系统 GCLS 的 结构 如 图 10. 2 所 示 。 


增生 操作 
检 t 精 先 


人 测 作 
测 三 | 消息 表 | 一 一 一 | 分 类 器 表 分 类 FF 试用 
Ea 表 器 


: T 委 
冲突 处 理 信任 分 配 算法 


客观 环境 - 


图 10.2 遗传 分 类 学 习 系 统 GCLS 的 结构 


客观 环境 信息 通过 分 类 器 系统 的 检测 器 (Detector) 被 编码 成 有 限 长 的 消息 
(Messages) 。 然 后 发 往 消息 表 :; 消息 表 中 的 消息 触发 位 串 规则 ( 称 为 分 类 器 ) ,被 触发 的 分 
类 器 又 向 消息 表 发 消息 ,这 些 消息 又 有 可 能 触发 其 他 的 分 类 器 或 引发 一 个 行动 ,通过 作用 器 
(Effector) 作 用 于 客观 环境 。 

(1) 检测 器 

检测 器 (Detector) 将 环境 信息 由 条 件 部 分 和 结论 部 分 组 成 的 训练 的 例子 集 编码 成 二 进 
制 字 符 串 的 消息 。 一 条 消息 M; 是 一 个 二 元 组 ,其 形式 如 下 : M; 二 [xi,yi] 
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其 中 : i 为 消息 号 ;z 为 条 件 部 分 , 即 训 练 例子 的 各 特征 编码 ,x;€ {0,1)”*。y 为 结论 部 
分 , 即 训练 例子 的 类 别 ,y;€ {0,1})"。 例 如 : [(10001011),(1011)] 是 一 条 由 一 个 8 位 条 件 
和 4 位 结论 组 成 的 消息 。 

(2) 消息 表 

消息 表 (Message List) 包 含 当 前 所 有 的 消息 (训练 例子 集 )。 每 个 消息 由 条 件 部 分 
(Condition) 和 结论 部 分 (Action) 组 成 。 

(3) 分 类 器 

分 类 器 (Classifier) 系 统 与 一 般 的 机 器 学 习 系统 不 同 , 它 最 后 所 获得 的 规则 中 包含 通 配 
符 # ,这 就 会 出 现 大 量 的 元 余 规则 ,如 1# #0,1110 是 一 致 的 。 一 般 来 说 ,应 该 使 系统 产生 
最 小 的 规则 集 获得 较 高 的 性 能 。 规 则 集 越 小 ,系统 的 时 间 性 能 就 越 好 。 

一 个 分 类 器 是 由 当前 遗传 产生 的 一 条 规则 组 成 ,分 类 器 表 由 所 有 分 类 器 组 成 ,构成 了 规 
则 集 。 一 个 规则 C; 是 一 个 三 元 组 ,形式 如 下 : 

Ci = [U,V ,fitnessi] 
其 中 ,U; 是 条 件 部 分 ,U;E {0,1,#)",# 表 示 通 配 符 ;V; 是 结论 部 分 (action) ,ViE (0,1)”; 
fitness; 是 规则 i 的 适应 值 , 它 又 是 一 个 二 元 组 ,其 形式 如 下 : 
fitness; = [fitl ,fit2] 

其 中 : fitl \fit2 均 为 正 整数 ,分 别 表示 在 该 规则 覆盖 的 范围 内 ,与 规则 结论 一 致 和 不 一 致 的 
消息 个 数 。 

在 分 类 器 中 ,将 最 后 获得 的 规则 放 入 精练 分 类 器 中 。 

(4) 测试 表 

测试 表 (Test List) 是 由 所 有 测试 例子 组 成 ,一 个 测试 例子 T; 也 是 一 个 同 消息 形式 一 样 
的 二 元 组 ,只 是 它 的 结论 部 分 y: € { * )”", * 表示 未 确定 。 当 它 到 精练 分 类 器 匹配 规则 后 ， 
其 结论 部 分 w 就 被 赋值 成 与 消息 M, 完全 一 样 的 形式 , 即 y;€ (0,1}”, 变 成 一 条 新 的 消息 。 
结论 可 直接 作用 于 环境 ,也 可 通过 环境 将 新 消息 反馈 给 系统 ,以 便 系统 能 继续 学 习 下 去 ,从 
而 更 好 地 适应 不 断 变 化 的 客观 环境 。 

(5) 作用 器 

作用 器 (Effector) 将 所 有 测试 例子 的 判别 结果 (类 别 ) 转 换 成 具体 问题 的 输出 值 , 并 作用 
于 环境 。 


2. GCLS 系统 的 主要 算法 


(1) 信任 分 配 算法 

信任 分 配 算法 (Credit Assignment Algorithm,CAA) 实 质 是 对 分 类 器 表 中 各 条 规则 作 
用 于 环境 的 有 效 性 进行 评价 ,而 本 系统 中 的 环境 就 是 前 面 所 说 的 训练 例子 集 ,将 分 类 器 表 中 
的 规则 与 消息 表 中 的 消息 逐个 匹配 ,根据 匹配 的 成 功 与 否 ,来 修改 规则 的 适应 值 ,以 保证 好 
的 规则 的 生存 ,以 及 不 适应 的 规则 的 消亡 ,其 主要 步骤 如 下 : 

Q@ 初始 化 规则 的 适应 值 , 即 fitl<-0,fit2<-0。 

@ 从 消息 表 LMJ 中 取出 一 条 消息 ,与 分 类 器 表 中 的 规则 逐个 进行 比较 。 

人 


下 条 件 Condition) 和 结论 action) 均 匹配 ,THEN fit= fitlr1; 
下 条 件 匹 配 ,结论 不 匹配 ,THEN fit2- fit2+17 
下 条件 不 匹配 ,THEN fitness< fitness 


@ 返回 步 又 @ ,直到 [M] 中 的 消息 全 部 取 完 。 

(2) 遗传 算法 

遗传 算法 (Genetic Algorithms) 是 用 来 产生 新 的 规则 。 在 GCLS 系统 中 ,遗传 算法 的 调 
用 是 在 分 类 器 表 中 每 一 新 的 种 群 产 生 之 后 ,系统 采用 了 一 种 限制 交配 策略 ,也 就 是 本 地 算 子 
中 的 受 限 交 配 , 即 只 允许 同类 (规则 的 结论 部 分 相同 ) 的 规则 进行 交叉 。 这 样 , 对 同一 结论 的 
规则 ,只 允许 其 条 件 部 分 进化 。 假 如 规则 的 条 件 和 结论 同时 进化 ,就 可 能 引起 种 群 不 收敛 的 
情况 产生 。 此 外 ,产生 的 新 规则 并 不 取代 老 规则 ,而 是 与 老 规则 合并 到 一 起 ,形成 工作 分 类 
器 的 新 的 初始 种 群 。 

GCLS 中 遗传 算法 的 主要 步骤 如 下 : 

a 在 分 类 器 表 中 ,根据 与 各 规则 适应 值 成 正比 的 概率 ,选择 复制 出 K 个 规则 。 


本 系统 中 采用 了 比例 法 来 选择 复制 。 按 广 / 》) 方 取 整 ( 是 X, 的 适应 值 ， >) f; 是 


种 群 中 各 规则 的 适应 值 之 和 )} ,来 决定 第 i 个 规则 在 下 一 代 中 应 复制 其 自身 的 数目 &;, 而 KK 
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@ 采用 遗传 算 子 (交叉 ,变异 ) ,重新 产生 个 新 的 规则 。 

在 GCLS 中 , 按 一 定 的 概率 P. 从 @ 中 随机 选择 出 一 对 规则 进行 交叉 ,同样 ,也 是 按 一 
定 的 概率 P,, 对 规则 中 的 某 些 位 进行 变异 。 这 里 的 交叉 概率 P. 和 变异 概率 P,, 都 是 经 验 参 
数 ,在 不 同 应 用 问题 中 的 取 值 都 是 不 同 的 。 

(3) 合并 操作 

采用 合并 操作 (Merge Operation ) 旨 在 减少 宛 余 规 则 。 

Q@ 对 于 分 类 器 表 中 初始 种 群 的 每 一 规则 , 若 其 对 应 的 fitl 恒 不 等 于 0, 且 fit2 等 于 0, 则 
保留 ,否则 淘汰 。 

@ 将 保留 下 来 的 规则 两 两 匹配 。 设 R1、R2 为 两 个 保留 下 来 的 规则 。 

IF R1 二 R2, 且 fit1(R1)==fit1(R2),THEN 保留 R2, 淘 汰 R1。 

IF R1 汪 R2, 且 fit1(R1) 之 fit1(R2) ,THEN 保留 R1, 淘 汰 R2。 

(4) 冲突 处 理 

一 般 的 分 类 器 系统 不 包括 矛盾 例子 的 处 理 , 而 在 实际 应 用 领域 尤其 在 预测 领域 ,这 种 情 
况 经 常 出 现 ,如 天 气 预报 。 所 以 系统 要 能 够 对 这 些 矛 盾 例 子 进行 处 理 。GCLS 系统 中 设计 
的 冲突 处 理 (Conflict Process) 是 将 消息 表 [LM] 中 的 消息 两 两 匹配 ,对 于 那 种 只 有 条 件 匹 配 ， 
而 结论 不 匹配 的 消息 作为 冲突 消息 记录 下 来 ,并 都 从 [MJ 中 删除 , 即 在 分 类 器 中 删除 已 生成 
的 冲突 规则 。 

(5) 增生 操作 

如 果 分 类 器 表 中 没有 一 个 与 消息 匹配 的 规则 , 则 用 增生 操作 (Supplement Operation) 
生成 一 个 与 之 相 匹 配 的 规则 。 在 消息 位 串 上 对 条 件 部 分 的 每 一 位 按 系 统 给 定 的 # 的 生成 率 
进行 变异 。 若 发 生变 异 则 由 1 或 0 改 为 # ,否则 不 变 。 然 后 将 变异 过 的 消息 作为 新 的 规则 
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的 条 件 部 分 ,结论 部 分 保留 消息 中 的 结论 。 新 生成 的 规则 加 入 到 分 类 器 表 中 的 方法 有 两 种 : 
一 是 用 新 生成 的 规则 置换 掉 分 类 器 表 中 的 适应 值 最 小 的 规则 ;二 是 直接 加 入 到 分 类 器 表 中 ， 
只 有 当 分 类 器 表 的 增长 超过 一 定 限度 时 才 进 行 淘汰 。 这 样 做 的 好 处 是 在 系统 运行 的 初期 ， 
当 适 应 值 的 强 弱 差 别 还 不 明显 时 ,能 较 好 地 避免 将 有 发 展 潜力 、 好 的 规则 淘汰 掉 。 在 本 系统 
中 ,采用 了 后 一 种 方法 。 

此 外 ,在 GCLS 系统 中 采用 了 训练 与 测试 同时 进行 。 一 般 的 分 类 器 系统 同 现存 的 机 器 
学 习 系 统一 样 : 训练 与 测试 是 分 开 进行 的 ,规则 的 获取 完全 依赖 于 训练 例子 的 选取 的 好 坏 。 
例如 ,训练 例子 中 正 反 例 的 比例 应 与 实际 问题 中 正 反例 的 比例 相同 ,这 一 般 是 不 可 能 做 到 
的 , 且 选 取 的 训练 例子 不 可 能 包含 实际 问题 中 的 所 有 人 情况。 而 GCLS 的 这 种 策略 使 系统 能 
在 训练 后 继续 学 习 , 这 就 能 保证 不 依赖 于 选取 的 例子 。 从 而 能 更 好 地 适应 不 断 变化 的 客观 
环境 ,得 到 更 符合 实际 的 规则 。 


3. GCLS 系统 获取 规则 的 过 程 


遗传 分 类 学 习 系统 GCLS 系统 的 学 习 过 程 就 是 一 个 获取 规则 的 过 程 。GCLS 规则 生成 
流程 如 图 10. 3 所 示 。 


信任 分 配 算法 新 例 Message 新 例 action 
消息 表 测试 表 
(例子 集 ) (规则 染 ) 
Message 0 en 
to 人 0 汐 吕 “| | 输出 知识 
ction 0,1} 
{0,1} 串 | -00 串 | 
Fitness = 
{fit] ,fit2} 
遗传 算法 
选择 
交叉 = 
变异 


图 10.3 GCLS 规则 生成 过 程 


规则 的 获取 是 通过 初始 化 一 个 随机 的 种 群 ( 分 类 器 ) ,而 后 触发 系统 的 信任 分 配 机 制 和 
遗传 算法 等 操作 ,直到 获得 一 组 源 于 环境 信息 (训练 集 ) 的 、 达 到 期 望 状态 或 特征 的 规则 (分 
类 器 ) ,再 把 最 后 获得 的 规则 拷贝 到 一 个 精炼 分 类 器 中 ,以 供 下 一 步 测试 未 知 例子 的 类 别 使 
用 ,至 此 ,GCLS 系统 的 一 个 学 习 过 程 就 已 结束 。 

在 GCLS 系统 中 一 次 学 习 过 程 的 结束 是 当前 分 类 器 已 收敛 , 即 种 群 的 规则 与 其 父 代 完全 
相同 ,并 且 各 规则 的 适应 值 已 连续 p 次 保持 不 变 , 也 就 是 说 当前 工作 种 群 已 不 再 进化 了 ,p 是 
系统 根据 不 同 的 应 用 问题 而 事先 设置 的 一 个 参数 ,在 本 系统 应 用 实例 中 pp 均 取 100。 

GCLS 系统 的 执行 步骤 可 概括 如 下 : 

(1) 初始 化 GCLS 的 所 有 预 置 参数 。( 如 分 类 器 表 中 初始 规则 数目 n; 交 又、 变异 概率 
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P.、P ;判断 分 类 器 收敛 的 参数 p 等 ) ;初始 化 分 类 器 表 , 设 为 初始 种 群 0, 随 机 产生 个 规 
则 ,并 给 每 个 规则 赋 一 个 相等 的 初始 适应 值 。 

(2) 将 环境 信息 (训练 集 ) 通 过 检测 器 编码 成 二 进 制 消息 放 和 人 消息 表 LMJ] 中 。 

(3) 对 [CM] 进行 冲突 处 理 。 将 [LM] 中 的 消息 进行 两 两 匹配 ,把 只 有 条 件 匹 配 而 结论 不 
匹配 的 消息 做 冲突 处 理 后 ,直接 送 往 精炼 分 类 器 中 。 

(4) 对 初始 种 群 0 调用 信任 分 配 算法 ,修改 其 中 的 规则 适应 值 。 如 果 种 群 0 中 无 一 与 
消息 匹配 的 规则 , 则 进行 增生 操作 ,生成 一 个 相 匹 配 的 规则 ,将 该 规则 直接 加 入 到 种 群 0 中。 

(5) 对 种 群 0 进行 合并 操作 ,合并 后 的 种 群 设 为 种 群 1。 

(6) 假如 种 群 1 已 收敛 , 则 拷贝 该 种 群 的 规则 到 精炼 分 类 器 中 ,转向 步 又 (9)。 

(7) 调用 遗传 算法 ,生成 新 一 代 种 群 2, 将 其 与 种 群 1 合并 ,而 后 送 给 种 群 0, 从 而 形成 
新 的 种 群 0。 

(8) 返回 步骤 (4) 。 

(9) 对 测试 表 [T] 调 用 精炼 分 类 器 规则 ,生成 [T] 的 结论 部 分 。 

(10) 将 [TJ 送 往 作用 器 ,转换 成 实际 的 输出 值 以 作用 于 环境 。 


10.2.3 遗传 分 类 学 习 系统 GCLS 的 应 用 
1. 应 用 说 明 


这 是 一 个 学 习 识 别 脑 出 血 和 脑 血 栓 两 种 疾病 的 诊断 规则 的 应 用 实例 ,这 个 问题 实际 上 
是 从 大 量 已 知 患者 病例 (训练 例子 集 ) 中 找到 这 两 类 病 的 识别 规则 。 

在 这 一 应 用 实例 中 ,实际 上 只 有 两 种 类 别 : A 脑 出 血 ;B 脑 血 栓 。 

为 了 做 出 判断 ,应 当 考 虑 如 下 几 个 方面 的 特征 (属性 ): 

(1) 病人 的 既往 中 ,包括 a 高 血压 (有 01, 无 00);b 动脉 硬化 (有 01, 无 00); 

(2) 起 病 方式 ( 快 01, 慢 00); 

(3) 局 部 症状 ,包括 : 

a. 偏 竣 (是 01, 否 00); 

b. 瞳孔 不 等 大 (是 01, 否 00); 

c， 两 便 失 禁 ( 是 01 ,和 否 00); 

d. 语言 障碍 (是 01, 否 00); 

{. 意识 障碍 (无 00 ,深度 01, 轻 度 10); 

(4) 病理 反射 ( 阳 01, 阴 00); 

(5) 膝 腿 反 射 ( 无 00, 活 跃 01, 不 活跃 10); 

(6) 病情 发 展 ( 快 01, 慢 00)。 

上 面 是 从 6 个 方面 12 个 特征 来 识别 诊断 患者 到 底 得 的 是 脑 出 血 还 是 脑 血栓 。 


2. 获取 知识 


从 60 个 脑 出 血 和 脑 血 栓 病 人 的 病例 中 选 出 30 个 病例 作为 训练 样本 ,30 个 作为 测试 
样本 。 
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本 实例 采用 二 进 制 编码 方式 。 每 个 训练 例子 都 是 由 12 个 特征 和 1 个 类 别 组 成 的 ,每 个 
特征 和 类 别 都 由 2 位 二 进 制 字符 表示 的 。 那 么 ,将 例子 编码 成 二 进 制 字符 串 的 消息 就 是 一 
个 由 24 位 条 件 和 2 位 结论 组 成 的 二 元 组 ,例如 消息 M 王 [(0100010101010110100101) ， 
O11]s 

训练 集 是 由 15 个 脑 出 血 和 15 个 脑 血栓 患者 组 成 30 个 训练 样本 。 本 实验 在 对 30 个 训 
练 样本 进行 学 习 后 ,得 到 12 个 规则 : 学 习 终 止 于 第 170 代 。 


获取 的 主要 规则 如 下 : 

(1) 高 血压 三 有 人 瞳孔 不 等 大 = 是 人 膝 腿 反射 = 不 活跃 一 脑 出 血 (11) 
(2) 瞳孔 不 等 大 = 是 人 语言 障碍 一 是 一 脑 出 血 (12) 
(3) 高 血压 二 有 人 起 病 方 式 = 快 人 意识 障碍 二 深度 一 脑 出 血 (13) 
(4) 高 血压 三 有 人 病情 发 展 = 快 一 脑 出 血 (15) 
(5) 高 血压 二 有 人 动脉 硬化 二 有 人 起 病 方式 = 慢 一 脑 血 栓 (13) 
(6) 动脉 硬化 二 有 八 病情 发 展 == 慢 一 脑 血 栓 (15) 
(7) 动脉 硬化 二 有 人 意识 障碍 一 无 一 脑 血 栓 (12) 


以 上 括号 内 的 数值 表示 该 规则 的 适应 值 。 


10.3 进化 计算 


10.3.1 进化 计算 概述 


进化 计算 (Evolutionary Computation, EC) 是 模拟 自然 界 生 物 进化 过 程 中 群体 随机 搜 
索 技术 和 自然 选择 法 则 , 即 通 过 进化 过 程 完成 问题 的 求解 。 

进化 计算 最 典型 的 方法 有 4 种 : 遗传 算法 (Genetic Algorithm, GA)、 进 化 策略 
(Evolutionary Strategy,ES) .进化 规划 (Evolutionary Programming,EP) 和 遗传 程序 设计 
(Genetic Programming,GP)。 历 史上 这 4 种 算法 是 彼此 独立 发 展 起 来 的 。 这 些 方法 虽然 


物 界 中 进化 与 遗传 机 理 来 解决 复杂 的 工程 技术 问题 。 

进化 计算 起 源 于 20 世纪 30 年 代 通 过 仿真 生物 进化 过 程 进行 机 器 学 习 的 研究 。 在 
1932 年 ,Cannon 就 把 自然 进化 想象 为 一 个 学 习 过 程 , 与 自然 进化 过 程 的 机 制 和 结果 稍微 不 
同 的 是 ,Cannon 不 是 通过 维持 一 个 特定 的 种 群 来 进行 搜索 ,而 是 对 单个 个 体 反复 进行 随机 
试验 。1959 年 Friedman 推测 ,利用 变异 和 选择 的 仿真 可 以 设计 “思想 机 器 ”, 并 且 指 出 下 棋 
的 程序 可 以 用 这 种 方法 设计 。 在 1960 年 ,Cambell 猜想 : 在 导致 知识 扩张 的 所 有 过 程 中 ,都 
要 涉及 “盲目 一 变化 一 选择 一 幸存 ”的 过 程 。 

遗传 算法 GA 是 由 美国 的 J. Holland 于 1975 年 在 前 人 的 基础 上 创建 的 ,后 由 K. 
DeJong、J. Grefenstette、D. Goldberg 和 L. Davis 等 人 进行 了 改进 。 

进化 规划 EP 是 由 美国 的 L.J. Fogel、A.J. Owens 和 M.J. Walsh 于 1962 年 提出 的 ,最 
近 又 由 D. B. Fogel 进行 了 完善 。 

进化 策略 ES 是 由 德国 的 I Rechenberg 和 H. P. Schwefel 于 1965 年 提出 的 。 
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遗传 程序 设计 GP 是 由 美国 的 John R. Koza 于 1992 年 正式 提出 的 。 

1990 年 以 后 ,遗传 算法 与 进化 规划 和 进化 策略 开始 有 所 交流 ,并 接触 到 对 方 的 研究 工 
作 ,他 们 发 现 彼 此 在 研究 中 所 依赖 的 基本 思想 都 是 基于 生物 界 的 自然 遗传 和 自然 选择 等 生 
物 进 化 思想 ,于 是 将 这 类 方法 统称 为 进化 计算 ,相应 的 算法 称 为 进化 算法 或 进化 程序 。1993 
年 4 进化 计算 》 这 一 专业 领域 的 第 一 份 国际 杂志 问世 ;1994 年 IEEE 神经 网 络 委员 会 主持 召 
开 了 第 一 届 进 化 计算 国际 会 议 。 

群体 搜索 策略 和 群体 中 个 体 之 间 的 信息 交换 是 进化 算法 的 两 大 特点 。 它 们 的 优越 性 主 
要 表现 在 : 

(1) 进化 算法 在 搜索 过 程 中 不 容易 陷入 局 部 最 优 , 即 使 在 所 定义 的 适应 度 函 数 是 不 连 
续 的 , 非 规则 的 或 有 噪声 的 情况 下 ,它们 也 能 以 很 大 的 概率 找到 全 局 最 优 解 。 

(2) 由 于 它们 固有 的 并 行 性 ,因此 进化 算法 非常 适合 于 巨 量 并 行 机 。 

(3) 进化 算法 采用 自然 进化 机 制 来 表现 复杂 的 现象 ,能 够 快速 可 靠 地 解决 非常 困难 的 
问题 。 

(4) 由 于 它们 容易 同 别 的 技术 混合 ,进化 算法 目前 已 经 在 最 优化 ,机 器 学 习 和 并 行 处 理 
等 领域 得 到 了 越 来 越 广泛 的 应 用 。 


10.3.2 进化 策略 与 进化 规划 
1. 进化 策略 


早期 的 进化 策略 的 种 群 中 只 包含 一 个 个 体 ,并 且 只 使 用 变异 操作 。 在 每 一 代 中 ,变异 后 
的 个 体 与 其 父 代 进行 比较 ,并 选择 较 好 的 一 个 ,这 种 选择 策略 被 称 为 (1 十 1) 策 略 。 进 化 策略 
的 一 般 算法 可 以 描述 如 下 : 

(1) 问题 为 寻找 实 值 维和 撩 量 z, 使 得 函数 (x): R">R 取 极 值 。 不 失 一 般 性 , 设 此 程 
序 为 极 小 化 过 程 。 

(2) 从 各 维 的 可 行 范围 内 随机 选取 样本 zi;,i 二 1,…,p 的 初始 值 。 初 始 试验 的 分 布 一 
般 是 均匀 分 布 。 

(3) 通过 对 于 x 的 每 个 分 量 增加 零 均值 和 预先 选 定 的 标准 差 的 高 斯 随机 变量 ,从 每 个 
样本 xz; 产生 子 代 zf。 

(4) 将 函数 F(x;) 和 下 (zi) ,i 二 1,…,p 的 差 进 行 排序 ,选择 并 决定 那些 矢量 保留 。 具 有 
最 小 误差 的 个 矢量 变 成 下 一 代 的 新 样本 。 

(5) 进行 新 试验 ,选择 具有 最 小 方差 的 新 子 代 ,直到 获得 充分 解 ,或 者 直到 满足 某 个 终 
莫 条 件 。 

在 这 个 模型 中 ,把 试验 解 的 分 量 看 做 个 体 的 行为 特性 ,而 不 是 沿 染色 体 排列 的 基因 。 假 
设 不 管 发 生 什么 遗传 变换 ,所 造成 各 个 行为 的 变化 均 遵 循 零 均 值 和 某 个 标准 差 的 高 斯 分 布 。 
由 于 基因 多 效 性 和 多 基因 性 ,特定 基因 的 改变 可 以 影响 许多 表现 型 特征 ,所 以 在 创造 新 子 系 
时 ,较为 合适 的 是 同时 改变 亲本 所 有 分 量 。 

进化 策略 初始 试验 采用 上 述 算法 ,主要 采用 单 样本 一 单子 代 的 搜索 , 即 “(1 十 1) 进 化 策 
略 ,((1 十 1) 一 Es)”, 其 中 单个 子 代 是 由 单个 样本 产生 的 ,它们 都 被 置 于 生存 竞争 中 , 较 弱 的 
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一 个 要 被 挑选 出 来 消去 。 
1981 年 ,Schwefel 在 进化 策略 中 使 用 多 重 样本 和 子 代 ,这 是 对 Rechenberg 早期 工作 
(使 用 多 重 样本 ,但 是 仅 使 用 单个 子 代 ) 的 发 展 。 


2. 进化 规划 


Fogel 认为 ,智能 行为 需要 有 如 下 的 复合 能 力 : @ 预 报 它 的 环境 ; @ 把 预报 变 成 对 于 给 
定 目标 的 适当 响应 。 

进化 规划 中 经 常用 有 限 状 态 自 动机 (FSM) 表 示 在 环境 (有 限 字 母 符号 序列 ) 上 运行 的 
算法 。1966 年 Fogel 等 人 进行 了 一 系列 实验 。 

例如 ,考虑 把 递增 的 自然 数 划 分 为 质数 (表示 为 “1”) 或 合 数 (表示 为 “0”) 所 产生 的 非 平 
稳 序列 。 这 样 环境 由 序列 “01101010001…? 所 组 成 ,分 别 代表 了 正 整数 “1,2,3,4,5,6,7,8， 
9,10,11,…” 是 质数 还 是 合 数 的 情况 。 当 然 存在 直接 测试 是 否 为 质数 的 方法 ,但 是 我 们 要 做 
的 是 ,依据 观察 到 的 质数 与 合 数 序列 ,预测 下 一 个 整数 是 否 为 质数 ,这 就 不 太 容易 了 。 采 用 
收益 函数 为 “有 无 函数 ”, 即 对 于 每 个 正确 的 预报 ,收益 为 1, 而 对 于 每 个 错误 的 预报 ， pa 
0。 并 且 将 所 得 的 结果 减 去 机 器 的 状态 数 , 乘 以 0. 01 进行 修正 ,用 此 修正 项 对 个 体 复杂 性 
行 惩罚 。 

试验 得 出 ,在 初始 时 波动 大 (由 于 采样 数 太 少 ), 在 第 115 个 符号 处 预报 正确 率 增 到 
?8 和 ;要 后 基本 车 持 不 变 ， 一 直到 第 200 个 数 。 到 719 个 符号 以 后 ,累积 的 正确 预报 百分比 

达到 81.9%。 逐 渐 趋 于 100% 的 正确 率 , 这 是 因为 质数 越 变 越 稀 , 机 器 将 不 断 预 报 “ 合 数 ”。 

Fogel 等 人 在 1966 年 发 现 , 该 进化 算法 学 会 了 能 被 2 或 3 整除 的 数 是 合 数 。1968 年 ， 
Fogel 的 实验 表明 ,进化 规划 能 成 功 地 “认识 到 环境 中 的 循环 性 ,发 现 能 被 2 整除 的 数 不 是 
质数 ”等 等 。 换 句 话 说 ,虽然 程序 没有 关于 质数 本 性 和 除法 能 力 的 先 验 知识 ,也 能 够 归纳 出 
质数 的 定义 。 但 是 可 以 看 出 ,进化 规划 不 是 一 个 完善 的 预报 器 ,因为 有 限 状 态 机 无 法 表示 产 
生 质数 的 算法 。 

1969 年 ,Fogel 和 Burgin 将 进化 规划 用 于 博弈 ( 协 进化 ) 。 他 们 进行 了 一 系列 两 人 零 和 
博弈 实验 。 在 只 有 少量 玩法 (例如 4 种 ) 的 简单 博弈 中 ,进化 规划 都 能 够 发 现 总 体 最 优 策略 ， 
在 一 些 更 复杂 的 环境 下 ,进化 规划 产生 的 策略 在 性 能 上 已 经 优 于 人 的 策略 。 进 化 规划 还 可 
以 推广 到 非 零 和 博弈 隋 况 ,例如 追踪 一 逃逸 问题 。 

进化 规划 的 计算 流程 包括 : 

(1) 确定 问题 的 表达 方式 。 

(2) 随机 产生 初始 群体 ,并 计算 其 适应 值 。 

(3) 用 如 下 操作 产生 新 群体 : 四 变异 ,对 旧 个 体 添 加 随机 量 , 产 生 新 个 体 ; @ 计 算 新 个 
体 适应 值 ; @ 选 择 , 挑 选 优良 个 体 组 成 新 群体 。 

(4) 反复 执行 (3) ,直到 满足 终止 条 件 , 选 择 最 佳 个 体 作为 进化 规划 的 最 优 解 。 

其 中 ,进化 规划 的 变异 算 子 的 自 适应 调节 功能 ,主要 依靠 适应 值 /(X) 来 实现 ,表达 式 
如 下 : 

zi 一 十 VFCz)。Ni(0,1) 
式 中 : xz; 为 旧 个 体 目标 变量 的 第 ;个 分 量 ;z:? 为 新 个 体 目标 变量 的 第 ;个 分 量 ; V7Cz) 为 
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旧 个体 z 的 适应 值 ; N;(0,1) 为 对 第 i 个 分 量 发 生 的 随机 数 , 服 从 标准 正 态 分布 。 
3. 遗传 程序 设计 


遗传 程序 设计 运用 遗传 算法 的 思想 , 常 采用 树 的 结构 来 表示 计算 机 程序 。1989 年 , 美 
国 斯 坦 福 大 学 的 Koza 基于 自然 选择 原则 创造 性 地 提出 了 用 层次 化 的 计算 机 程序 来 表达 问 
题 的 遗传 程序 设计 (Genet Ic Programming,GP) 方 法 ,成 功 地 解决 了 许多 问题 。 

利用 进化 去 搜索 一 个 可 表示 计算 机 程序 的 树 结 构 空 间 , 使 用 一 些 遗传 操作 动态 地 改变 
这 些 结构 ,找到 解决 该 问题 的 可 行 的 计算 机 程序 。 这 种 广义 的 计算 机 程序 进化 的 结构 本 身 
是 计算 机 程序 ,能 够 根据 环境 状态 自动 改变 程序 的 结构 及 大 小 ,从 而 可 以 更 灵活 地 表达 复杂 
的 事物 的 性 质 。 

GP 最 初 由 一 随机 产生 的 计算 机 程序 群体 开始 ,这 些 计 算 机 程序 由 适合 于 问题 空间 领 
域 的 函数 所 组 成 ,这 样 的 函数 可 以 是 标准 的 算术 运算 函数 .标准 的 编程 操作 、 逻 辑 函 数 或 由 
领域 指定 的 函数 。 和 群体 中 每 个 计算 机 程序 个 体 都 是 用 适应 值 测试 来 评价 的 ,该 适应 值 与 特 
定 的 问题 领域 无 关 。 

GP 的 操作 步骤 ， 

(1) 确定 个 体 的 表达 方式 ,包括 函数 集 和 终止 符 集 等 。 

(2) 随机 生成 初始 群体 , 它 由 关于 问题 (计算 机 程序 ) 的 函数 随机 组 合 而 成 。 

(3) 计算 各 个 体 的 适应 值 , 即 执行 每 个 计算 机 程序 ,根据 其 解决 问题 的 能 力 ,为 其 指定 
一 个 适应 值 。 

(4) 根据 遗传 参数 ,通过 复制 ,交换 和 突变 产生 新 个 体 (计算 机 程序 ): @ 复制 ,将 已 有 
的 优良 个 体 复制 ,加 入 新 群体 中 ,并 相应 删除 劣质 个 体 ; 四 交换 ,将 选 出 的 2 个 个 体 进行 交 
换 , 所 产生 的 2 个 新 个 体 插入 新 群体 中 ; 四 变异, 随机 改变 个 体 某 一 部 分 ,将 新 个 体 插入 新 
群体 中 。 

(5) 反复 执行 (3) 和 (4) ,直至 获得 满意 结果 。 此 时 ,后 代 中 适应 值 最 高 的 计算 机 程序 个 
体 被 指定 为 GP 的 结果 ,这 一 结果 可 能 是 问题 的 解 或 近似 解 。 

GP 的 主要 特点 在 于 它 是 可 变 长 的 .层次 化 的 .常常 是 树 结构 的 遗传 材料 ,而 且 大 多 数 
情况 下 ,程序 个 体 是 可 执行 的 ,也 就 是 说 常常 通过 某 类 解释 器 解释 程序 。 

GP 方法 可 应 用 于 许多 领域 ,如 电子 工程 化 学 、 财 政 \ 经 济 、 生 命 科 学 、 艺 术 等 。 

(1) 预测 和 分 类 : 使 用 历史 数据 库 来 预测 新 事例 ,如 商业 化 地 应 用 到 保险 .气象 预报 、 
财政 等 领域 ,还 可 进行 时 间 序 列 预测 .蛋白 质 形状 预测 等 。 

(2) 人 工 生 命 : 用 计算 机 模拟 生物 的 自然 进化 或 发 现 规律 。 

(3) 神经 网 络 设计 : 设计 神经 网 络 结构 ,发 现 学 习 规则 和 相关 权 值 , 以 使 神经 网 络 完成 
指定 任务 。 

(4) 图 像 和 信号 处 理 : 图 像 识别 .图像 恢 复 .图 像 和 声音 的 压缩 等 。 


10.3.3 进化 计算 小 结 
1. 交叉 和 变异 的 关系 


进化 计算 研究 领域 中 主要 争议 的 问题 之 一 是 ,遗传 算 子 中 是 变异 还 是 交叉 重要 。 进 化 
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规划 和 进化 策略 学 派 都 强调 变异 算 子 的 重要 性 ,并 将 它 作 为 主要 的 遗传 算 子 ,近来 的 研究 也 
证 实 变异 算 子 非常 有 效 ,D. Fogel 强烈 地 声称 : 在 一 般 意义 上 ,交叉 并 不 优 于 变异 。 

在 另 一 方面 ,遗传 算法 学 派 坚信 交叉 是 更 有 效 的 算 子 ,在 分 析 交 叉 和 它 对 性 能 影响 上 做 
了 大 量 的 工作 ,这 些 研究 几乎 都 认为 变异 是 辅助 算 子 ,是 次 重要 的 。 最近 Schaffer 和 
Eshelman 在 试验 中 比较 了 变异 和 交叉 得 出 结论 : 仅 有 变异 并 不 总 是 足够 的 。 

Spears 从 定义 交叉 和 变异 的 两 个 潜在 作用 一 一 分 裂 (Disruption ) 和 构造 
(CConstruction) 出 发 ,考虑 它们 在 执行 这 两 个 作用 上 的 差异 ,研究 结果 表明 : 对 于 分 裂 ,变异 
比 交叉 有 效 , 虽 然 它 缺 少 交叉 保留 个 体 共 同等 位 基因 的 能 力 ; 然 而 对 于 构造 ,交叉 比 变异 更 
有 效 。 

关于 变异 和 交叉 相对 重要 性 的 问题 ,可 以 在 更 高 的 层次 上 来 看 待 ,变异 用 于 群体 中 产生 
随机 多 样 性 ,而 交叉 相当 于 一 个 加 速 器 ,由 部 分 加 速 构成 整体 行为 ,从 而 原来 的 问题 就 转化 
为 多 样 性 和 构造 的 相对 重要 性 。 对 于 遗传 算法 ,这 也 与 探测 (Exploration) 和 开发 
(Exploitation) 之 间 的 权衡 有 关 。 多 样 性 和 构造 的 相对 重要 性 是 解答 Holland 体系 和 Fogel 
体系 之 间 差 异 的 关键 。 特 别 地 ,Fogel 等 人 怀疑 交叉 的 重要 性 ,他们 不 相信 自然 选择 会 选择 
个 别 的 特性 或 特性 的 组 合 ,交叉 被 看 成 是 第 三 位 的 因素 ,因为 在 自然 中 它 似 乎 不 经 常 出 现 。 

变异 和 交叉 都 不 该 轻易 地 提倡 和 舍弃 ;每 个 算 子 在 搜索 中 起 着 不 同 的 作用 。 对 于 一 个 
问题 事先 确定 哪个 算 子 更 重要 很 难 。 为 得 到 好 的 性 能 ,探测 和 开发 之 间 达 到 适当 的 平衡 依 
赖 于 群体 中 多 样 性 的 数量 ,应 用 遗传 算法 的 方式 以 及 所 要 达到 的 目标 。 

总 之 ,标准 变异 和 交叉 只 是 更 一 般 的 探测 算 子 的 两 种 方式 ,现在 交叉 和 变异 之 间 的 区 分 
是 否 必 要 尚 不 清楚 。 无 论 如 何 , 设 计 更 一 般 的 算 子 将 是 一 条 可 行 之 路 。 


2. 算法 对 比 


模拟 自然 进化 过 程 可 以 产生 和 鲁 棒 的 计算 机 算法 一 一 进化 算法 。 在 一 个 统一 的 框架 下 对 
遗传 算法 、 进 化 规划 和 进化 策略 进行 比较 ,可 以 发 现 三 种 算法 既 有 许多 相似 处 ,同时 也 有 很 
大 的 不 同 。 

进化 规划 和 进化 策略 都 把 变异 作为 主要 的 搜索 算 子 ,而 在 标准 的 遗传 算法 中 ,变异 只 处 
于 次 要 地 位 ; 另 一 方面 ,交叉 在 标准 遗传 算法 中 起 着 重要 作用 ,而 在 进化 规划 中 被 完全 省 去 ， 
在 进化 策略 中 与 自 适应 结合 在 一 起 使 用 非常 重要 。 另 外 ,标准 遗传 算法 和 进化 规划 都 强调 
随机 选择 机 制 的 重要 性 ,而 从 进化 策略 的 角度 看 ,选择 是 完全 确定 的 ,没有 合理 的 根据 表明 
随机 选择 原则 的 重要 性 。 进 化 规划 和 进化 策略 确定 地 把 某 些 个 体 排除 在 被 选择 复制 之 外 ， 
而 标准 遗传 算法 一 般 对 每 个 个 体 都 指定 一 个 非 零 选 择 概率 。 

将 来 研究 的 一 个 明确 目标 将 是 探 明 这 一 事实 的 原因 ,从 而 为 设计 新 的 和 更 好 的 进化 算 
法 找 出 一 般 的 原则 。 


3. 应 用 领域 


进化 计算 是 模拟 自然 界 生 物 演化 过 程 产 生 的 随机 优化 策略 与 技术 ,由 于 它 效率 高 .易于 
操作 ,简单 通用 ,并 具有 自 组 织 . 自 适应 .自学 习 等 智能 特征 ,因而 广泛 应 用 于 各 种 不 同 的 
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(1) 复杂 问题 的 优化 。 当 所 要 解决 的 问题 具有 非 线 性 、 多 峰值 .不 确定 性 等 特征 时 ,使 
用 传统 的 优化 方法 常常 不 能 奏效 。 进 化 计算 由 于 是 一 种 “黑箱 ”技术 ,不 要 求 有 明确 的 因果 
关系 数学 表达 式 , 因 此 它 是 解决 这 类 问题 的 有 力 工 具 。 

(2) 复杂 系统 分 析 。 应 用 进化 计算 从 事 聚 类 分 析 、 模 式 识别 .图像 处 理 、 调 度 组 织 等 工 
作 , 可 将 表面 杂乱 无 章 的 复杂 事物 条 理化 。 

(3) 自动 控制 。 进 化 计算 技术 具有 自 适 应 、 自 学 习 、 自 组 织 的 智能 行为 ,能 够 适应 环境 
变化 ,减少 波动 ,保证 高 的 控制 精度 ,保证 控制 的 实时 性 和 快速 性 。 

(4) 硬件 自动 设计 。 随 着 20 世纪 90 年 代 初 易于 重 构 的 硬件 一 一 现场 可 编程 门 阵列 
(FPGA) 的 出 现 , 演 化 硬件 (EHW) 在 国际 上 受到 越 来 越 多 的 关注 , 它 有 可 能 对 复杂 电路 设 
计 和 自 适应 硬件 领域 提供 一 套 全 新 的 方法 。 

(5) 自动 程序 设计 。 基 于 遗传 程序 设计 而 开展 的 自动 程序 设计 方法 ,正在 发 展 成 进化 
软件 的 研究 , 即 不 必 精 确 地 告诉 计算 机 具体 怎样 去 做 ,而 由 计算 机 自动 完成 。 

(6) 综合 应 用 。 进 化 计算 和 其 他 技术 相 结合 ,各 自发 挥 特长 ,综合 解决 问题 。 例 如 ,将 
遗传 算法 和 人 工 神经 网 络 相 结 合 ,解决 了 机 器 学 习 等 问题 。 


习 题 10 


. 遗传 算法 中 的 染色 体 与 基因 是 如 何 表示 的 ? 

. 遗传 算法 的 处 理 流 程 是 怎样 的 ? 

. 遗传 算法 中 如 何 确定 适应 值 函 数 ? 

. 选择 算 子 有 几 种 ”各自 的 计算 方法 是 什么 ? 

. 交叉 算 子 有 几 种 ? 各 自 的 操作 方法 是 什么 ? 

. 变异 算 子 有 几 种 ? 各自 的 操作 方法 是 什么 ? 

. 遗传 算法 的 特点 有 哪些 ? 

. 根据 遗传 算法 的 简 例 ,说 明 三 个 遗传 算 子 的 作用 是 什么 ? 
. 遗传 分 类 学 习 系 统 GCLS 规则 生成 过 程 的 示意 图 是 什么 ? 
. GCLS 系统 的 信任 分 配 算法 的 步骤 是 什么 ? 

. GCLS 系统 的 遗传 算法 的 主要 步骤 是 什么 ? 

12. GCLS 系统 用 于 脑 出 血 、 脑 血栓 疾病 诊断 的 个 体 编码 方式 是 什么 ? 
13. 进化 计算 包括 哪些 算法 ? 进化 算法 的 特点 是 什么 ? 

14. 进化 策略 怎样 体现 了 变异 操作 的 特点 ? 

15. 说 明 进 化 规划 的 计算 流程 及 变异 算 子 的 计算 公式 。 

16. 遗传 程序 设计 的 基本 思想 是 什么 ? 

17. 如 何 理解 “变异 ”和 “交叉 ” 算 子 的 作用 ? 

18. 对 比 遗 传 算法 和 进化 策略 与 进化 规划 的 不 同 。 


> 
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11.1 公式 发 现 概述 


11.1.1 曲线 拟 合 与 发 现 学 习 


在 科学 发 展 史上 ,各 种 物理 学 、 化 学 、 天 文学 中 的 自然 规律 都 是 著名 科学 家 对 大 量 的 实 
验 数据 进行 深入 的 研究 ,最 后 得 到 了 自然 规律 ,如 牛顿 三 大 定律 .万 有 引力 定律 . 开 普 勒 行星 
运行 定律 等 。 这 些 自然 定律 是 科学 发 展 和 社会 进步 的 葛 基 石 。 

自然 界 存在 着 无 数 的 规律 ,除了 已 被 发 现 的 外 ,还 有 很 多 规律 需要 人 们 去 继续 发 现 。 在 
大 量 的 工程 问题 中 ,同样 存在 着 大 量 的 实验 数据 需要 人 们 去 寻找 它们 的 规律 性 。 在 找到 完 
全 精确 的 规律 性 之 前 ,一 般 用 经 验 性 规律 ( 带 有 一 定 的 误差 ) 来 代替 ,去 完成 工程 计算 ,设计 
和 施工 。 经 验 规律 的 发 现 一 般 是 由 有 经 验 的 工程 师 来 完成 的 。 


1. 数值 计算 方法 中 的 曲线 拟 合 


随 着 计算 机 的 出 现 , 发 展 了 数据 拟 合 技术 。 它 是 数值 计算 的 重要 分 支 。 数 据 拟 合 是 利 
用 科学 试验 中 得 出 的 大 量 测量 数据 ,去 求 得 自 变 量 和 因 变 量 的 一 个 近似 公式 。 

例如 ,已 知 NN 个 点 (zi,yi) 去 求 得 自 变 量 zx 和 因 变 量 > 一 个 近似 表达 式 > 一 风 (z) 。 

曲线 拟 合 问题 的 特点 在 于 ,被 确定 的 曲线 原则 上 并 不 特别 要 求 真正 通过 给 定 的 点 ,只 要 
求 它 尽 可 能 从 给 定点 的 附近 通过 。 对 于 含有 观测 误差 的 数据 来 说 ,不 过 点 的 原则 显然 更 为 
适合 。 因 为 它 可 以 部 分 抵消 数据 中 含有 的 观测 误差 。 给 出 它们 一 般 的 近似 的 数学 公式 有 

2 ao 十 ai 由 (Z) 十 ago(Z) 十 … 十 Cge(Z) cl. 1 

在 曲线 拟 合 中 ,$i (zx) 一 般 取 x* 或 者 是 正 交 多 项 式 。 其 中 wo ,al，… ,a 各 个 系数 的 确 

定常 用 的 是 最 小 二 乘法 ,即使 各 点 的 误差 平方 和 最 小 : 


$aosars a) = Dy—y): = Dy— Caotagpilri) tage li) + + apa (xi)))? 
1 1 


= min C11.2) 

对 于 如 何 选择 wo ,al,… ,as 使 误差 平方 和 最 小 ,可 以 用 数学 分 析 中 求 极 值 方 法 , 即 函 数 

$aorarsa2 se". ,ab 对 ao sal，…,ar 求 偏 微 商 ,再 使 偏 微 商 等 于 零 , 得 到 co ,al,…'ax 应 满足 
的 方程 ; 


(一 ao 一 aag(zi) 一 … 一 age(Cz)) 一 0 


ag/aa = 一 2 


N 
N 
9$/9a1 2 yi ao —agilr) oe az) hr) =0 (11.3) 
i=1 
N 
D0 Qao — a$i(zi) Oo api(ri))* $lxi)=0 
=1 


9$/9ar 二 
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求 得 这 组 方程 的 解 {a;) , 即 可 得 拟 合 公式 (11.1) 。 

用 多 项 式 做 逼 近 公式 : 

了 三 而 十 下 于 十 az 到 十 十 Qpe (11. 4) 

根据 数学 定理 ,k 越 大 (x* 的 次 数 越 高 ) ,逼近 的 精度 越 高 。 但 实际 计算 表明 ,k 过 大 ,不 
但 求解 过 程 中 容易 发 生病 态 等 麻烦 情况 ,而 且 得 到 的 多 项 式 尽管 在 各 ri 处 的 值 与 y; 很 接 
近 , 但 其 他 地 方 却 产生 不 合理 的 波动 现象 。 

为 克服 这 方面 的 困难 , 取 更 一 般 的 情况 , 即 用 正 交 多 项 式 B(x) 代替 x*, 它 本 身 是 次 
多 项 式 。 典 型 的 如 勒 让 德 多 项 式 。 用 一 个 例子 来 说 明 。 

例如 ,在 某 一 个 化 学 反应 里 ,根据 实验 所 得 分 解 生成 物 的 浓度 与 时 间 的 关系 如 表 11. 1 
所 示 。 


表 11.1 浓度 与 时 间 的 关系 数据 


时 间 z 0 5 10 15 20 25 30 35 40 45 50 


浓度 y 0 1.27 2.16 2. 86 3. 44 3.87 4.15 4.37 4.51 4.60 4.66 


由 于 用 简单 的 多 项 式 作 逼 近 公式 ,得 不 到 理想 的 精度 ,采用 勒 让 德 多 项 式 来 做 逼近 公 
式 。 在 此 ,用 5 次 正 交 勒 让 德 多 项 式 作为 y 的 近似 公式 : 


y= (7z) = pe 
其 中 x=t/5, 即 zo 一 0,zi 一 1,…,zio 一 10。 加 
利用 曲线 拟 合 方式 得 到 具体 的 逼近 公式 为 
点 (Z) 一 3.2627 X 10 环 加 oo(Cz) 一 2.15455 X 10 pi,10 (x) 一 0.908104 X 10™ pz,10 (x) 
一 0.164 X 10 “zio(z) 一 0.0195 X 10 “pi,1 Cx) 一 0.0102 X 10 ps,10 (7x) 
其 中 各 正 交 多 项 式 为 


Poio (ZX) 一 】 

加 ao(z) 二 1 一 2. 训 
二 

A 


mt ) 20 。 vw 2 
10(10— 1) 10(10— J(10—22 


Es (r=) T= (=2) 
burlz) 一 一 20"10 十 90 "10010 三 17 “ 10010—1)(10—2) 
,_z(z— D(z—2)(r—3) 
10(10—1)(10—2)(10—3) 
sk th DA dy 
“10 420° 100 二 1 “0 "Toc0— 1y10—2 
i md mt LC ef 
10010—1)(10—2)(10—3) 


(=r =D(x NE=) 
10410 一 JI0 一 210 一 3K0 一 4) 


pa (x) 一 1 一 12 。 i0+30 。 


140 


十 70 


ps 7) 一 1 一 30 


十 630 


252 
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该 和 逼 近 公式 的 精度 是 很 高 的 ,但 遗憾 的 是 ,此 公式 太 复 杂 ,计算 起 来 烦琐 ,很 难 理解 变量 
之 间 的 内 在 关系 。 

曲线 拟 合 中 如 何 选取 基 函 数 ( 如 勒 让 德 多 项 式 ) 的 有 效 方法 是 正 交 筛选 法 。 

可 以 说 ,曲线 拟 合 方法 基本 上 解决 了 在 科学 与 工程 中 的 大 量 实验 数据 中 找 出 逼近 公式 ， 
达到 给 定 的 精度 。 

数据 拟 合 方法 虽然 能 解决 一 些 实际 问题 ,但 是 它 把 寻找 公式 的 范围 限制 在 多 项 式 形式 
之 内 。 对 正 交 多 项 式 一 般 表 示 都 很 复杂 ,如 勒 让 德 多 项 式 , 它 是 由 多 个 多 项 式 组 成 的 。 每 个 
多 项 式 的 系数 都 不 相同 , 且 多 项 式 次 数 逐 渐 增 加 。 由 正 交 多 项 式 表示 的 逼近 公式 对 使 用 者 
来 说 很 不 直观 ,建立 不 起 各 个 变量 之 间 的 直观 概念 。 


2. 发 现 学 习 


随 着 人 工 智能 技术 的 发 展 , 近 10 年 来 ,机 器 发 现 技 术 得 到 发 展 。 比 较 典 型 的 系统 有 科 
学 定律 发 现 系统 BACON ,数学 概念 发 现 系 统 AM 等 。 它 们 都 产生 了 巨大 的 影响 。 

对 于 科学 发 现 的 自然 规律 ,用 数据 拟 合 的 方法 在 计算 机 上 是 绝对 得 不 出 来 的 。 只 能 采 
用 新 的 途径 ,这 就 需要 用 人 工 智 能 技术 来 完成 。BACON 系统 就 是 在 这 种 思想 指导 下 产 
生 的 。 

发 现 学 习 是 从 一 组 观测 结果 或 数据 利用 启发 式 求 出 这 些 数据 的 一 个 或 多 个 规律 。 

例如 容器 中 的 气体 ,人 们 能 够 观察 到 的 具体 数据 是 温度 (T) 、 体 积 (V)、 压 强 (P) 和 克 分 
子 个 数 (N)。 它 们 之 间 的 规律 性 是 这 些 属性 项 之 间 的 关系 式 : PV/NT= 常 数 。 公 式 发 现 
就 是 找 出 能 够 解释 给 定数 据 集合 的 最 本 质 的 规律 性 。 

发 现 学 习 有 两 种 方式 : 数据 驱动 方式 的 公式 发 现 和 模型 驱动 方式 的 概念 发 现 。 

数据 驱动 方式 的 公式 发 现 是 根据 在 搜索 数据 中 所 发 现 的 数据 规律 性 ,采用 不 同 的 启发 
式 发 现 动作 ,在 一 系列 发 现 动作 之 后 形成 所 发 现 的 公式 规律 。BACON 系统 和 FDD 系统 是 
数据 驱动 的 公式 发 现 系 统 。 

模型 驱动 方式 的 概念 发 现 的 典型 例子 是 数学 概念 发 现 系 统 AM。 它 包括 了 各 种 各 样 的 
搜索 法 (242 个 启发 式 规则 ) 指 导 在 数据 领域 中 的 搜索 ,从 集合 、 表 、 项 等 1000 多 个 基本 数学 
概念 出 发 ,AM 使 用 具体 化 一 般 化 .类比 、 复 合 等 操作 去 产生 新 的 数学 概念 ,如 得 出 自然 数 、 
质数 等 重要 的 数学 概念 。AM 系统 还 找到 了 与 这 些 概念 有 关 的 定性 规律 ,如 唯一 因子 分 解 
定理 等 。 


11.1.2 启发 式 与 数据 驱动 启发 式 
1. 启发 式 


启发 式 是 人 工 智 能 的 重要 方法 。 启 发 式 的 基本 定义 是 : 能 够 建议 合 情 的 行动 和 避免 不 
合 情 的 行动 的 知识 。 
通过 深入 的 研究 ,对 启发 式 有 了 更 深入 的 了 解 。 形 成 了 对 启发 式 的 新 观点 : 
(1) 通过 使 用 启发 式 规则 ,能 开发 新 的 知识 领域 
通过 使 用 这 些 既 能 建议 合 情 的 行动 ,又 能 排除 不 合 情 的 行动 的 启发 式 集 , 可 以 发 现 一 些 
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全 新 的 概念 及 其 关系 。 

(2) 当 新 的 知识 领域 产生 和 演变 时 ,需要 新 的 启发 式 

当 引 入 一 些 新 的 建议 、 定 理 、 技 术 、 规 范 或 观察 到 的 现象 后 ,这 一 领域 可 能 随 之 改变 ,用 
于 处 理 这 一 领域 的 启发 式 也 会 变化 。 例 如 ,观察 一 个 用 于 制定 从 旧金山 到 伦敦 的 旅行 计划 
的 启发 式 集 , 近 些 年 来 ,加 入 了 许多 新 规则 ,而 修改 了 许多 旧 规 则 。 

(3) 能 用 启发 式 开发 新 的 启发 式 

启发 式 本 身 的 生长 通过 启发 式 来 引导 。 为 了 做 到 这 一 点 ,需要 很 多 类 型 的 启发 式 ( 如 一 
般 的 或 专用 的 等 )、 用 于 启发 式 的 知识 表示 以 及 关于 启发 式 属性 的 假设 等 。 

(4) 当 新 的 知识 领域 产生 和 进化 时 ,需要 新 的 知识 表示 。 新 的 知识 表示 也 能 由 启发 式 
产生 。 


2. 数据 驱动 启发 式 


典型 的 BACON 系统 采用 了 数据 驱动 启发 式 ,通过 启发 式 搜索 发 现 科学 定律 (公式 ) 。 

公式 发 现在 于 分 析 数 据 ( 或 称 观测 值 ) 得 出 假说 (或 称 定律 )。 这 些 假设 (定律 ) 能 够 解释 
(或 概括 ) 这 些 数 据 。 

信息 用 不 同 层次 的 描述 表示 ,其 中 最 底层 的 可 认为 是 数据 。 而 最 高 层 的 可 说 成 是 假说 ， 
中 间 层 次 则 是 这 两 个 概念 的 混合 。 一 个 层次 的 描述 既 作 为 它 下 面 一 层 描 述 的 假设 ,又 作为 
它 上 面 一 层 描述 的 数据 。 

BACON 的 启发 式 搜索 ,总 是 注意 两 个 数值 变量 之 间 增 加 和 减少 的 单调 关系 。 考 察 下 
面 一 条 递减 关系 的 启发 式 , 它 可 叙述 为 : 如 果 在 某 层次 的 描述 中 , 因 变 量 y 的 值 随 变 量 x 的 
值 减少 而 增加 , 则 注意 > 和 x 之 间 的 单调 减少 关系 ,并 计算 > 关于 z 的 斜率 。 一 旦 某 种 趋 
向 被 发 现 , 系 统 就 计算 出 有 关 这 两 变量 组 成 直线 的 斜率 , 即 如 果 发 现 y 是 xz 的 线性 函数 ,其 
斜率 为 m, 截 距 为 i,BACON 就 建立 一 个 斜率 变量 ,定义 为 (y 一 让 /zx, 和 一 个 截 距 变量 为 y 
一 MT 

如 果 截 距 很 接近 于 零 值 ,BACON 就 定义 一 个 比率 变量 y/x。 

如 果 斜 率 是 常数 ,那么 ,系统 就 建立 两 个 新 的 变量 (” 和 ;ip) ,用 来 定义 有 关 变 量 的 线性 
组 合 。 

如 果 该 斜率 是 变化 的 (它们 的 关系 是 非 线 性 的 ) ,那么 BACON 就 根据 关系 的 方向 和 所 
涉及 的 数 的 符号 去 计算 有 关 变 量 的 积 或 商 , 系 统 把 这 一 乘积 或 商 也 同样 作为 一 个 新 变量 对 
待 ,一 旦 定义 了 一 个 新 变量 , 它 都 作为 变量 ,再 去 发 现 更 新 的 变量 关系 。 


11.2 科学 定律 重新 发 现 系 统 


11.2.1 BACON 系统 基本 原理 
1. BACON 系统 的 思想 


BACON 系统 是 运用 人 工 智 能 技术 从 试验 数据 中 寻找 其 规律 性 比较 成 功 的 一 个 系统 ， 
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它 是 Pat Langley 于 1980 年 研制 的 。 它 运用 数据 驱动 方法 , 即 这 种 方法 使 用 的 规则 空间 与 
假设 空间 是 分 开 的 。 系 统 的 规则 空间 包括 若干 精炼 算 子 ,通过 精炼 算 子 修改 假设 。 所 谓 精 
炼 算 子 就 是 修改 假设 空间 的 子 程序 ,每 个 精炼 算 子 以 特定 的 方式 修改 假设 空间 。 整 个 学 习 
程序 由 多 个 精炼 算 子 组 成 ,程序 使 用 探索 知识 对 提供 的 训练 例 进行 分 析 , 决 定 选 用 哪个 精炼 
算 子 。 这 类 学 习 方 法 的 大 致 步骤 如 下 : 

步骤 1 收集 某 些 训练 例 。 

步骤 2 ”对 训练 例 进行 分 析 ,决定 应 该 使 用 的 精炼 算 子 。 

步骤 3 使 用 选 出 的 算 子 修改 当前 的 假设 空间 。 

重复 执行 步骤 1 到 步骤 3, 直 到 取得 满意 的 假设 为 止 。 

BACON 系统 的 思想 是 程序 反复 地 考察 数据 并 使 用 精炼 算 子 创造 新 项 ,直到 创造 的 这 
些 项 中 有 一 个 是 常数 时 为 止 。 于 是 一 个 概念 就 用 “项 二 常数 ”的 形式 表示 出 来 ,其 中 项 为 变 
量 运 算 的 组 合 而 形成 的 表达 式 。 


2. BACON 系统 主要 精炼 算 子 


BACON 系统 主要 精练 算 子 如 下 。 

(1) 发 现 常数 

当 某 一 属性 变量 取 某 一 值 至 少 两 次 的 时 候 , 触 发 这 个 算 子 , 该 算 子 建立 这 个 变量 等 于 
常数 的 假设 。 

(2) 具体 化 

当 已 经 建立 的 假设 同 数据 相 矛 盾 时 触发 这 一 算 子 时 , 它 通过 增加 合 取 条 件 的 形式 把 假 
设 具 体 化 。 

(3) 斜率 和 截 距 的 产生 

当 发 现 两 个 变量 是 线性 相互 依赖 时 触发 这 一 算 子 时 , 它 是 建立 线性 关系 的 斜率 和 截 距 

(4) 乘积 的 产生 

当 发 现 两 个 变量 以 相反 方向 递增 但 又 不 线性 依赖 时 触发 该 算 子 时 ,产生 两 个 变量 的 乘 
积 作为 新 变量 。 

(5) 商 的 产生 

当 发 现 两 个 变量 以 相同 方向 递增 但 又 不 线性 依赖 时 触发 该 算 子 ,产生 两 个 变量 的 商 作 
为 新 变量 。 

(6) 模 变量 的 产生 

当 发 现 两 个 变量 vw 和 vw 在 模 某 一 数 n 相等 时 触发 这 一 算 子 ,产生 vw (mod n) 作 为 新 
变量 。 


11.2.2 BACON 系统 实例 
1. 开 普 勒 第 三 定律 的 发 现 


太阳 系 行星 运行 数据 包括 行星 运动 周期 p( 绕 太阳 一 周 所 需 时 间 ) ,行星 与 太阳 的 距离 
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d( 绕 太阳 旋转 的 椭圆 轨道 的 长 半 轴 ) ,在 此 用 参照 数据 ,以 水 星 数据 为 单位 标准 ,如 表 11.2 
所 示 。 


表 11.2 行星 运行 数据 


p d p d 
水 星 1 1 地 球 27 9 
金星 8 4 


利用 BACON 精炼 算 子 发 现行 星 运行 规律 过 程 如 表 11. 3 所 示 。 
表 11.3 行星 运行 规律 发 现 过 程 


p d d/p d’/p di/p’ 
水 星 1 1 1 1 1 
金星 8 4 0.5 2 1 
地 球 27 9 0.33 3 1 
发 现 过 程 说 明 如 下 : 


(1) 变量 p 和 变量 4 都 是 递增 的 ,建立 两 变量 相 除 的 新 变量 4d/p( 第 3 列 )。 
(2) 变量 d 与 变量 4d/p 以 相反 方向 递增 ,建立 两 变量 相 乘 的 新 变量 d?/p( 第 4 列 )。 
(3) 变量 d/p 与 变量 d?*/p 以 相反 方向 递增 ,建立 两 变量 相 乘 的 新 变量 心 /大 (第 5 
列 ) 。 
(4) 最 新 变量 d3/p? 是 常数 1 ,发 现 公式 为 
di/p*: =1 


2. 理想 气体 定律 的 发 现 


理想 气体 有 4 个 变量 : 体积 (V)、 压 强 (P) ,温度 (T) 和 克 分 子 个 数 (N), 具 体 数据 
如 表 11.4 所 示 。 


表 11.4 理想 气体 数据 


V 于 N 
I . 0083200 300 000 300 1 
1, .0062400 400 000 300 
1; .0049920 500 000 300 | 
1 .0085973 300 000 310 
I; .0064480 400 000 310 
I .0051584 500 000 310 和 
I .0088747 300 000 320 } 
.0066560 400 000 320 了 
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V 时 这 N 
I, .0053248 500 000 320 1 
Ts .0266240 300 000 320 3 
Ts .0199680 400 000 320 3 
T27 .0159740 500 000 320 3 


为 了 发 现 它们 之 间 的 规律 , 先 取 变量 工 和 N 的 相同 的 数据 (如 前 三 列 中 T= 300, N= 
1) ,对 变量 V 和 PP 进行 分 析 发 现 ,由 于 V、P 两 变量 以 相反 方向 递增 ,利用 BACON 精练 算 
子 ,建立 两 变量 相 乘 的 新 变量 PV, 且 PV 等 于 常数 2496。 
对 于 另 一 组 相同 的 数据 (T=310, N= 二 1), 利 用 相同 方法 得 到 PV 新 常数 2579. 1999。 
这 样 得 到 新 的 理想 气体 数据 ,如 表 11. 5 所 示 。 


表 11.5 合并 PV 变量 后 的 理想 气体 数据 


pV T N 
A 2 496 300 1 
下 2 579. 1999 310 1 
I 2 622. 3999 320 1 
下 4 991. 9999 300 2 
I 5 158. 3999 310 2 
I 5 324. 7999 320 2 
I 7 488 300 3 
Ts 7 737. 5999 310 3 
1 7 987.2 320 3 


从 表 11.4 到 表 11. 5, 合 并 了 变量 P 和 V 成 新 变量 PV, 它 和 变量 和 NN 仍 是 三 个 变 
量 。 为 了 有 效 地 发 现 它 们 之 间 的 规律 , 仍 先 固定 变量 N ,研究 变量 PV 与 了 之 间 的 关系 。 
表 11. 5 中 每 三 行 数据 均 为 N= 二 1、2、3 是 常数 的 数据 。 
分 析 在 N= 常数 的 三 行 数据 中 ,变量 PV 与 了 是 以 相同 方向 递增 ,利用 BACON 精炼 
算 子 ,建立 两 变量 相 除 的 新 变量 PV/T, 且 新 变量 等 于 常数 ( 取 不 同 的 N 时 ,PV/T 常数 不 
同 )。 这 样 得 到 的 理想 气体 数据 如 表 11. 6 所 示 。 


表 11.6 最 新 的 理想 气体 数据 


PW/T N PV/T N 
rn 8.32 1 E 24. 95 条 
EK 16. 64 2 
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对 表 11.6 中 数据 , 它 是 两 变量 PV/T 与 N 的 数据 。 分 析 两 变量 PV/T 与 N 的 变化 关 
系 。 两 变量 以 相同 方向 递增 ,利用 BACON 精炼 算 子 ,建立 两 变量 相 除 的 新 变量 PV/T/N 
一 PV/TN, 得 到 常数 8. 32 , 按 BACON 精炼 算 子 ,发 现 公式 为 

PV/NT = 8.32 

BACON 系统 在 发 现 某 些 科 学 定律 上 取得 很 大 成 功 ,但 是 BACON 系统 也 存在 很 多 弱 
点 。 第 一 个 弱点 是 BACON 系统 对 训练 例 所 取得 的 具体 值 特别 敏感 ,产生 这 种 情况 的 原因 
是 每 一 个 精炼 算 子 都 有 十 分 具体 的 触发 条 件 , 训 练 例 的 值 一 变 ,或 者 提供 训练 例 的 次 序 一 
变 ,都 会 影响 规则 的 触发 。 例 如 ,对 某 一 类 训练 例 BACON 不 能 发 现 欧姆 定律 ,如 果 变 量 的 
次 序 安排 得 不 够 好 ,BACON 发 现 单 摆 定 律 要 多 花 40% 的 时 间 。 

第 二 ,BACON 不 能 处 理 干扰 性 的 训练 例 。 例 如 ,发 现 常数 的 精炼 算 子 的 触发 仅仅 是 根 
据 某 一 项 在 两 个 训练 例 的 值 相等 。 这 种 触发 条 件 显然 对 干扰 是 高 度 敏感 的 。 


11.2.3 BACON 系统 的 进展 


BACON 系统 共有 5 个 版 本 ,不同 的 版 本 其 规则 空间 也 不 同 。 

(1) BACON.1 提出 了 6 条 精练 算 子 ,发 现 了 开 普 勒 定律 。 

(2) BACON.2 是 BACON.1 的 扩展 形式 , 它 包括 两 条 附加 的 运算 程序 ,能 够 发 现 递归 
序列 并 通过 计算 重复 差 的 方法 产生 多 项 式 ,BACON. 2 的 能 力 有 很 大 提高 ,可 以 解决 一 大 类 
序列 外 推 的 任务 。 

(3) BACON.3 是 BACON. 1 的 另 一 扩展 形式 , 它 使 用 发 现 常 数 运算 程序 提出 的 假设 
重新 构造 训练 例 。 它 用 不 同 的 描述 层次 来 表示 数据 ,其 中 最 低层 是 直接 观察 的 ,最 高 层 对 应 
于 数据 的 假说 ,中 间 层 相对 于 下 层 , 它 是 假说 ,相对 于 上 层 它 是 数据 , 它 不 把 假说 和 数据 截然 
分 开 。BACON. 3 由 大 约 86 个 产生 式 规 则 组 成 , 共 分 7 组 ,各 组 产生 式 规则 负责 不 同 的 任 
务 , 有 的 负责 直接 搜索 观测 数据 ,有 的 负责 数据 的 规律 性 ,有 的 计算 项 的 值 , 有 的 把 新 项 分 解 
为 它 的 组 成 部 分 。 

BACON. 3 发 现 的 规律 有 : 

理想 气体 定律 : pv/ (nt) 三 局 

Coulomb 定律 : fd?/(gig;)=k 

Galileo 定律 : dp?/(11)? 二 ks 

Ohm 定律 : td?/(l. 一 kec) 二 ky 

(4) BACON. 4 把 观察 变量 的 组 合式 认为 是 推理 项 , 它 使 用 了 启发 式 搜索 方法 : 程序 总 
是 注意 两 个 数值 变量 之 间 增 加 和 减少 的 单调 关系 ,如 果 斜 率 为 常数 , 则 系统 建立 两 个 新 的 推 
理 项 (斜率 项 和 截 距 项 ) 作 为 有 关 变 量 的 线性 组 合 。 如 果 和 斜率 是 变化 的 (不 是 线性 关系 ), 则 
BACON. 4 计算 有 关 项 的 乘积 或 比值 ,并 把 这 个 变量 当做 一 个 新 的 推理 项 ,一旦 新 的 项 确定 
了 ,就 不 需 区 别 推理 项 和 观察 变量 。BACON. 4 递归 应 用 同样 试探 规则 ,使 系统 具有 相当 大 
的 发 现 经验 规 律 的 能 力 。 该 系统 还 提出 了 固有 性 质 解决 符号 变量 的 处 理 。 

BACON. 4 又 发 现 了 若干 自然 规律 : 

Snell 折射 定律 : sin(z)/sin(r) 一 ma /nz 

动量 守恒 动量 : 7721 V1 一 7772 V2 
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万 有 引力 定律 : FGmims/d; 

Black 比 热 定 律 : cmati 十 czmzts 二 (cm 十 coms)ty 

(5) BACON. 5 用 简单 的 类 比 推理 发 现 守 恒定 律 ,对 两 个 物体 具有 完全 相同 的 有 关 项 ， 
BACON. 5 推测 最 后 的 定律 是 对 称 的 。 它 把 各 项 排序 ,使 得 属于 同一 物体 的 项 首先 改变 ,一 
且 该 物体 的 这 些 变量 中 发 现 一 个 不 变 推理 项 ,程序 就 假定 必 有 一 个 类 似 项 可 用 于 另 一 物体 。 
因此 ,BACON. 5 只 需 相 同 地 改变 另 一 个 项 集合 中 的 推理 项 。 当 做 到 了 这 一 点 之 后 ,两 个 高 
层 项 取 不 同 的 值 ,可 用 其 他 试探 规则 查找 它们 之 间 的 关系 。 这 样 一 来 ,在 物理 中 普遍 存在 的 
对 称 定 律 可 以 很 容易 地 发 现 。 

BACON. 5 发 现 了 能 量 守恒 定律 。 


11.3 经验 公 式 发 现 系统 


11.3.1 FDD 系统 基本 原理 


经 验 公 式 发 现 系 统 FDD(Formula Discovery from Data) 是 陈 文 伟 团 队 应 用 人 工 智能 技 
术 的 机 器 发 现 技术 和 数值 计算 中 的 曲线 拟 合 技术 以 及 可 视 化 技术 结合 起 来 自行 研制 的 系 
统 。 它 是 从 大 量 试验 数据 中 发 现 经 验 公式 。 逐 步 完成 任意 函数 的 任意 组 合 ( 线 性 组 合 .初等 
运算 组 合 、 复 合 函 数 运算 组 合 等 ) ,对 自然 规律 和 经 验 规律 的 发 现 。 

FDD 系统 有 三 个 版 本 : FDD. 1,FDD. 2,FDD. 3。 

FDD. 1 系统 能 够 发 现 变 量 取 初 等 函数 或 复合 函数 的 组 合 公式 。FDD. 2 系统 能 够 发 现 
变量 取 导 数 的 公式 。FDD. 3 系统 能 发 现 多 变量 取 初 等 函数 或 复合 函数 的 组 合 公 式 。 


1. 问题 描述 


给 定 一 组 可 观察 变量 XCr ,zs ，… ,zx,) 以 及 这 组 变量 的 试验 数据 Di (da ,dz ，…， di )，, i 二 
1,2,3,…,m 公式 发 现 系 统 找 出 该 组 变量 满足 的 数学 关系 式 : F(m xo，… ,zx,) 二 c, 其 中 为 常 
数 , 亦 即 对 于 任意 一 组 试验 数据 (da ,da ,… ,di ) 均 满足 关系 式 f(da ,da ,…， dd) 二 c。 

所 找 出 的 关系 式 f(x) 是 任何 形式 的 数学 公式 ,包括 分 段 函 数 。 

对 于 关系 式 f(z， xs ，…,X,) 二 c 的 复杂 程度 可 分 为 ; 

(1) 变量 的 初等 运算 : f(x,y) 二 x0y, 其 中 0: 十 \ 一 、* 、/。 

(2) 变量 的 初等 函数 运算 : f(x) 二 c, 其 中 f(x) 为 初等 函数 。 

(3) 初等 函数 的 任意 组 合 : f(z,y) 二 a f(x)0as f(y)。 

(4) 复合 函数 的 运算 g(f(x))==c, 其 中 g(x)、f(zx) 均 为 初等 晴 数 。 

(5) 复合 函数 的 任意 组 合 : h(argi(f(z))Gasgs(f(y))), 其 中 h(x)、g(zx)、f(x) 均 为 初 
等 函数 。 

(6) 多 个 初等 函数 的 组 合 : f(x,y) 二 a 有 i(x)0az f(r)…0arfr(y), 其 中 f(x)、f(y) 均 
为 初等 函数 。 

(7) 分 段 函数 : 对 于 不 连续 的 点 ,分 别 用 不 同 的 函数 加 以 描述 。 

以 上 是 对 两 个 变量 的 讨论 。 在 现实 世界 中 存在 着 多 变量 的 更 为 复杂 的 关系 ,在 公式 发 
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现 过 程 中 采用 先 寻 找 两 变量 的 关系 ,再 逐步 扩充 为 多 变量 的 关系 的 方法 。 
2. FDD. 1 的 设计 思想 


FDD. 1 系统 的 基本 思想 是 利用 人 工 智 能 启发 式 搜索 函数 原型 .寻找 具有 最 佳 线性 逼近 
关系 的 函数 原型 ,并 结合 曲线 拟 合 技术 及 可 视 化 技术 来 寻找 数据 间 的 规律 性 。 
启发 式 方法 是 求解 人 工 智 能 问题 的 一 个 重要 方法 。 一 般 启 发 式 是 建立 启发 式 函 数 , 用 
以 引导 搜索 方向 ,以 便 用 尽量 少 的 搜索 次 数 ,从 开始 状态 达到 最 终 状 态 。 
FDD. 1 系统 在 执行 搜索 的 过 程 中 ,对 原型 函数 的 搜索 以 及 对 它们 的 组 合 函 数 的 搜索 ， 
也 是 一 种 组 合 爆 炸 现 象 。 为 解决 这 一 问题 ,在 设计 系统 时 采用 了 启发 式 方法 来 实现 。 
对 某 一 变量 取 初 等 函数 和 另 一 变量 的 初等 函数 或 基本 数据 进行 线性 组 合 , 即 从 原型 库 
中 选取 逼近 效果 最 好 的 少数 几 个 初等 郴 数 作为 基 郴 数 ,并 进一步 形成 组 合 函 数 ,直至 找到 最 
后 的 目标 函数 。FDD. 1 系统 的 启发 式 函数 形式 为 
For) =a+bfi(r) Ci 
线性 逼近 误差 公式 为 
由 一 (e 十 br(m) 一 FGzs))/FGCzs) (11.6) 
通常 总 是 选取 di 最 小 的 f(x;) 作为 继续 搜索 的 当前 结 点 。 这 一 启发 式 函 数 在 以 后 的 
多 次 应 用 中 被 证 明 是 有 效 的 。 


3. FDD. 1 系统 中 的 知识 


在 FDD. 1 系统 中 ,知识 采用 的 是 产生 式 规 则 的 表示 形式 (if…then)。 
主要 的 基本 规则 有 : 

规则 1 发 现 常数 

当 某 一 变量 x 取 一 个 常数 , 则 建立 该 变量 等 于 常数 的 公式 , 即 +==c。 
规则 2 两 变量 的 初等 运算 组 合 

当 两 变量 进行 初等 运算 若 等 于 常数 , 则 建立 该 变量 的 初等 运算 关系 式 : 


aizli0aszas 一 C 


其 中 0: 十 .一 、X、/。 
规则 3 变量 取 初 等 函数 
当 某 变量 取 初 等 函数 等 于 常数 , 则 建立 该 变量 的 初等 函数 关系 式 : 
f(x)=e 


其 中 f(z) 为 初等 函数 。 
规则 4 ”两 变量 取 初 等 函数 的 线性 组 合 
两 变量 分 别 取 初 等 函数 后 的 线性 组 合 等 于 常数 , 则 建立 两 变量 取 初 等 函数 的 线性 组 合 
azi) 十 azj(zz) 一 C 
其 中 户 (z) 、 记 (zs ) 为 初等 函数 。 
规则 5 某 变量 取 某 一 初等 函数 与 另 一 变量 的 线性 组 合 
对 某 一 变量 zx; 取 初 等 函数 后 与 另 一 变量 zj 进行 线性 组 合 , 若 为 常数 , 则 建立 关系 式 : 
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czi) 十 czzi 一 < 

规则 6 对 某 一 变量 xz; 取 初 等 函数 , 另 一 变量 取 两 个 初等 函数 进行 线性 组 合 , 若 为 

常数 , 则 建立 关系 式 : 
ca 六 (zi) 十 caF(zi) 十 csg(Czi) 一 < 

规则 7 建立 新 变量 (启发 式 1) 

若 两 变量 的 某 初等 运算 结果 接近 常数 , 则 建立 新 变量 为 该 两 变量 的 某 种 初等 运算 。 

规则 8 建立 某 变量 的 某 种 初等 函数 为 新 变量 (启发 式 2) 

若 某 变量 的 某 种 初等 函数 与 男 一 变量 或 它 的 初等 函数 进行 线性 组 合 接 近 常 数 , 则 建立 
该 变量 的 初等 函数 为 新 变量 。 

以 上 规则 的 嵌 套 或 递归 使 用 ,将 形成 变量 的 任意 函数 间 的 任意 组 合 。 在 应 用 规则 时 , 利 
用 可 视 化 技术 将 减少 各 种 函数 和 各 种 运算 的 选取 ,大 大 节省 了 搜索 时 间 。 


11.3.2 FDD.1 系统 
1. 总 体 结构 图 


FDD. 1 总 体 结构 图 如 图 11. 1 所 示 , 该 系统 由 试验 数据 输入 、 数 据 生 成 器 、 公 式 发 现 控 
制 . 可 视 化 过 程 、 数 据 项 、 原 型 选择 ,公式 生 成 、 误 差分 析 、 循 环 控制 .公式 输 出 与 可 视 化 显示 
十 个 模块 以 及 原型 算法 库 \ 试 验 数 据 库 、 知 识 库 公式 库 四 个 库 组 成 。 


试验 数据 输入 
数据 生成 器 |-~( ”数据库 
可 视 化 数据 项 初始 处 理 | | 一 (知识 库 ) 
过 程 Go 
5 ~ 优化 公式 
大 公式 继续 发 现 
i < | | 公式 输出 
1 了 公式 修正 可 视 化 显示 
| 朋 间 |】 人 公式 必 现 拉 制 
原型 分 析 
算法 库 
循环 控制 “| (公式 库 


图 11.1 FDD.1 系 统 结构 图 


2. 各 模块 说 明 


(1) 试验 数据 输入 

试验 数据 输入 (Input Data) 用 于 提示 用 户 输入 试验 数据 。 

(2) 数据 生成 器 

数据 生成 器 (Generator) 用 于 测试 系统 效果 。 给 定 一 个 已 知 公式 后 , 它 能 生成 一 批 数 


*。 237。 


据 ,FDD. 1 系统 的 核心 程序 将 利用 这 些 数据 来 找 出 已 给 定 的 公式 ,从 而 达到 测试 系统 的 公 
式 发 现 能 力 的 效果 。 此 模块 是 一 个 可 独立 执行 模块 。 
(3) 数据 库 
数据 库 (DataBase) 存 放 待 处 理 的 变量 数据 ,一 般 是 科学 和 工程 实验 数据 。 公 式 的 正确 
与 否 与 数据 的 规律 性 和 充分 性 密切 相关 。 系 统 本 身 可 提供 直接 输入 数据 的 功能 ,用 户 可 在 
系统 的 提示 下 将 数据 输入 。 也 可 用 数据 生成 器 为 系统 提供 数据 ,系统 将 其 按 一 定 的 格式 存 
储 起 来 ,存放 在 数据 库 中 。 数 据 库 中 有 一 个 缓冲 区 , 供 系统 运行 时 存放 中 间 变 量 数据 以 及 实 
现 数据 的 移动 和 变化 。 
(4) 可 视 化 过 程 
此 模块 又 分 成 三 个 子 模 块 : 
。 描绘 试验 数据 的 变化 趋势 。 
。 描绘 出 原型 算法 库 中 各 函数 原型 的 变化 规律 。 此 子 模块 具有 很 大 的 灵活 性 ,用 户 可 
根据 需要 随意 调用 所 选择 原型 以 描绘 其 变化 趋势 。 
。 描绘 所 发 现 的 公式 的 变化 规律 与 原始 数据 之 间 误 差分 布 状 况 。 
(5) 公式 发 现 控制 模块 
此 模块 是 FDD. 1 的 核心 部 分 , 它 主要 是 利用 知识 库 中 的 知识 ,优选 函数 原型 .控制 继续 
发 现 、 公 式 修正 等 。 它 包含 : 初始 处 理 、 优 选 公式 .继续 发 现 ,公式 修正 四 个 子 模块 。 下 面 对 
这 四 个 子 模块 的 功能 加 以 说 明 ; 
Q@ 初始 处 理 。 此 模块 的 主要 功能 有 两 个 方面 ,其 一 是 根据 具体 情况 对 用 户 所 提供 的 数 
据 进行 初步 处 理 ; 其 二 是 在 多 变量 中 选择 两 个 变量 以 及 向 多 变量 的 过 渡 处 理 。 
@ 优选 公式 。 其 主要 功能 是 对 公式 库 中 提供 的 公式 根据 其 误差 逼 近 情 况 来 优选 函数 
原型 ,对 函数 原型 一 般 选择 2 一 3 个 。 
@ 继续 发 现 。 此 模块 将 根据 误差 分 析 情 况 完成 如 下 功能 : 
。 建立 新 变量 。 
。 颠倒 变量 关系 。 
。 对 所 选择 的 函数 原型 进行 组 合 。 
@ 公式 修正 。 这 是 在 输出 公式 之 前 所 必 经 的 一 个 过 程 ,此 过 程 将 根据 用 户 提 供 的 误差 
要 求 决 定 是 否 对 系统 所 发 现 的 公式 进行 修正 (说 明 : 此 处 是 对 已 发 现 的 公式 的 误差 进行 修 
正 )。 若 不 必修 正则 将 公式 送信 “公式 输出 与“ 可视化 "模块 ;否则 对 公式 进行 修正 。 目 前 系 
统 提供 了 三 种 公式 修正 方法 ,如 下 所 述 : 
。 调和 级 数 回归 。 由 数学 分 析 可 知 ,对 任意 周期 函数 y 二 f(x), 可 以 用 三 角 函 数 的 傅 
里 叶 级 数 来 逼近 , 即 : 
y= $7) = a 2) Cacos(jr) + bsin(jr)) C11.73 
将 组 试验 数据 (zi,yi) 代 入 上 式 , 各 点 误差 值 以 调和 函数 方程 式 的 形式 表示 为 
yi = a0+ D) (uicos(Gizi + bsin(jzri)) 
et Cilia 


1 一 1.2.…,7231 = 1.2 ,mm 
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可 以 按 最 小 二 乘 原理 求 出 调和 级 数 中 各 未 知 系数 。 

。 用 直线 来 描述 误差 : 

此 算法 和 公式 生成 模块 的 直线 拟 合法 类 似 。 

。 神经 元 网 络 方法 允 近 误差 函数 

利用 神经 元 网 络 中 函数 式 网 络 对 误差 函数 进行 计算 , 求 出 网 络 权 值 , 使 函数 型 网 络 逼 近 
该 误差 函数 。 函 数 型 网 络 选 取 的 函数 为 

sin(2knxzx) .cos(2knr) k=1,2,.,n 

(6) 数据 项 

程序 中 的 两 个 指针 变量 用 以 存放 在 多 个 变量 中 所 选择 出 的 两 个 变量 的 实验 数据 。 

(7) 选择 原型 

此 过 程 通过 调用 原型 算法 库 、 可 视 化 过 程 及 误差 分 析 模 块 提供 的 误差 来 进行 函数 原型 
的 选择 。 有 两 种 选择 方式 : 

。 由 用 户 指定 选择 。 

。 通过 循环 控制 进行 顺序 选择 。 

(8) 公式 生成 

此 模块 主要 应 用 数值 分 析 中 的 曲线 拟 合 技术 求 出 拟 合 公式 的 系数 ,同时 生成 公式 。 

(9) 误差 分 析 模 块 

此 模块 的 主要 功能 是 对 公式 生成 模块 提供 的 公式 ,计算 相对 误差 并 对 各 公式 误差 进行 
比较 。 

(10) 循环 控制 模块 

此 模块 设 有 一 个 控制 开关 ,对 “原型 选择 ”和 “公式 发 现 控制 "两 个 过 程 进行 循环 运行 。 

(11) 公式 输出 和 可 视 化 显示 

此 过 程 是 系统 所 要 执行 的 最 后 一 步 , 当 公式 发 现 控 制 模块 决定 最 终 输 出 公式 后 执行 此 
模块 ,输出 公式 并 进行 可 视 化 显示 。 这 样 用 户 就 可 以 很 直观 地 阅读 公式 、 了 解 所 发 现 的 公式 
允 近 实验 数据 的 情况 。 

(12) 原型 算法 库 

原型 是 构成 数学 公式 的 基本 单元 ,原型 算法 库 所 包括 的 原型 决定 了 系统 的 发 现 能 力 。 
本 系统 的 函数 原型 由 基本 原型 和 组 合 原型 构成 。 

基本 原型 由 初等 郴 数 组 成 ,如 : 

(logCz)vexp(z)vsinCz)seosCe) 等 。 

组 合 原型 由 初等 函数 的 初等 运算 组 合 而 成 ,如 : 

Zsin(x)、 xcos(x)、 xexp(x)、 xlogio (Xx)、 x 'logio (x)、 x lexp(x), 1/logio (x)\ 1/sqrt(x)、 
sin(z) 十 cosCz) 等 。 

在 原型 算法 库 中 ,每 个 原型 都 给 出 了 一 个 算法 ,只 不 过 每 个 算法 的 程序 结构 都 非常 相似 。 

用 户 还 可 以 根据 需要 随意 增加 、 删 除 原型 ,在 程序 运行 过 程 中 给 出 了 一 个 控制 参数 ,用 
户 可 通过 它 来 调用 所 需 算法 。 

(13) 知识 库 


知识 库 中 知识 用 于 构造 和 发 现 关系 式 。 
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(14) 公式 库 

公式 库 用 来 存放 在 系统 搜索 过 程 中 初步 选择 的 原型 函数 组 成 的 公式 ,以 备 公式 发 现 控 
制 模块 使 用 。 

公式 库 中 的 公式 包含 两 个 变量 取 某 原型 函数 的 线性 组 合 以 及 该 公式 的 双 近 误差 。 在 搜 
索 过 程 中 ,每 当 发 现 一 个 比较 可 行 的 公式 或 函数 原型 , 便 将 其 送 入 公式 库 等 待 下 一 步 的 选 
择 , 每 一 轮 选择 之 后 便 把 落选 的 公式 剔除 出 公式 库 ,直至 发 现 满意 的 公式 为 止 。 


3. FDD. 1 系统 实例 


(1) 行星 运动 开 普 勒 第 三 定律 的 重新 发 现 
a 原始 数据 
原始 数据 如 表 11.7 所 示 。 
表 11.7 行星 运行 的 近似 数据 
距离 4 1 4 


© 
C3 
fo 
a 
ww 
Ca 
心 
名 
人 
Eg 
oo 
己 
> 
SQ 
3 


周期 p 和 8 27 64 125 216 343 512 729 1000 


@ 开 普 勒 第 三 定律 搜索 树 

对 于 行星 绕 太 阳 运 动 的 开 普 勒 第 三 定律 ,BACON 系统 利用 变量 的 乘除 运算 ,使 得 到 的 
新 变量 趋向 常数 的 思想 , 对 该 定律 重新 发 现 。 利 用 变量 取 初 等 函数 的 线性 组 合 趋向 直线 方 
程 的 思想 ,对 该 定律 也 重新 发 现 ,公式 发 现 的 搜索 树 如 图 11. 2 所 示 。 从 搜索 过 程 可 见 ， 
FDD. 1 系统 的 公式 的 发 现 过 程 与 BACON 系统 的 公式 发 现 过 程 是 完全 不 同 的 。 


(dp) 


Ba ~ (f(ad)p) 
(qlog(p)) (d,sqrt(p)) (sqrt(d),p) (log(d),p) (l/d*log(d),p) 
d=2.240 di=2.541 d=3.554 di=2.538 dt=3.244 
(log(d),log(p)) (log(d),log(p)) 
dt=0.0001 d=0.0002 


图 11.2 开 普 勒 第 三 定律 公式 发 现 图 


公式 发 现 搜 索 树 中 有 两 个 分 支 , 左 分 支 路 径 为 : 先 固定 4, 对 变量 p 求 各 原型 函数 f(p)， 
用 4 和 f/f(p) 拟 合 线性 方程 f(p)==a 十 bd, 其 中 46 是 常数 , 求 台 近 f(p) 的 相对 误差 , 选 误 
差 最 小 的 函数 为 log(p) ,误差 为 2.240, 建 立新 变量 p' 二 log(p) ,并 固定 它 , 再 对 4 变量 求 各 
原型 函数 g(d) ,对 log(p) 和 g(d) 拟 合 线性 方程 ,并 求 逼 近 g(d) 的 相对 误差 ,选取 误差 最 小 
者 为 log(d) ,误差 为 0.00001, 调 用 公式 生成 模块 求 得 公式 及 系数 ,公式 为 
logio (d) = 0.0 十 0.666666667* logio (p) (11.9) 
即 为 
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三 六 
从 右 分 支 树 也 可 发 现 开 普 勒 第 三 定律 ,这 里 不 再 详 述 。 
(2) 实例 数据 的 公式 发 现 
例如 , 炼 钢 厂 出 钢 时 所 用 盛 钢 水 的 钢 包 ,在 使 用 过 程 中 由 于 钢 液 及 炉渣 对 包 衬 耐火 
材料 的 侵蚀 ,使 其 容积 不 断 增 大 , 钢 包 的 容积 与 相应 的 使 用 次 数 ( 即 包 龄 ) 的 数据 如 
表 11. 8 所 示 。 


表 11.8 钢 包 容积 数据 


使 用 次 数 < 容积 y 使 用 次 数 z 容积 y 
2 106. 42 11 110. 59 
3 108. 20 14 110. 60 
4 109. 58 15 110. 90 
5 109. 50 16 110.76 
7 110.00 18 111. 00 
8 109. 93 19 111. 20 
10 110. 49 


对 这 组 试验 数据 的 搜索 过 程 与 行星 运动 例子 相同 ,这 里 不 再 详细 叙述 其 具体 发 现 过 程 ， 
给 出 它 的 公式 发 现 搜索 树 和 最 终 公 式 形式 ,并 与 (计算 方法 引 论 ) 书 中 方法 及 结果 做 比较 ， 
式 发 现 搜索 树 如 图 11. 3 所 示 。 


只 
公 


(xy) 


(x, 0) (f(y) 


(x, 107) (x, log0)) (x, sqrt(y)) (log(x¥).») (1/xy) (1/x*log(x)y) 
drt=0.065 dr=0.0139 dt=0.0324 dt=1.745 dr=1.644 dr=1.807 


| 


(f(x1), log0)) (1/x, g0) 


(xlog0)) (log(x),logQy)) (l/x*log(x),logO)) (lx,1/y) (1/x,sqrt/0)) (1/x,log/(y)) 
d=1.76363 d=-1.8228 cd=1.7797 di=0.01647 dr=0.00823 dr=0.00349 


图 11.3 钢 包 容积 变化 公式 发 现 图 


从 右 分 支 开始 搜索 ,得 到 了 组 成 公式 的 两 组 基 函 数 为 : (1/zx,log(y));(1/zx,sqrt(z)) 
调用 公式 发 现 模块 求 得 公式 及 系数 ,最 终 得 到 经 验 关系 式 为 


sqrt(y) = 10. 5591908 一 0. 4711268/z Cll.10) 
dt = 0.008233 

log(y) = 2.0472975— 0.0392124/x CE 
dt = 0.00349 
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经 效果 分 析 均 满足 误差 要 求 。 

这 样 就 用 FDD. 1 系统 发 现 了 上 述 两 个 公式 。 

《计算 方法 引 论 ) 一 书 所 讲述 的 公式 为 

y = x/(0.008966 十 0.00083012x) ll 12) 

这 个 公式 是 该 书 作者 根据 自己 的 专业 知识 和 经 验 , 并 根据 其 离散 点 在 图 上 分 布 形状 选 
择 1/z 代替 z,1/y 代替 y, 再 进行 线性 拟 合 而 得 到 的 公式 。 此 公式 与 图 11. 3 中 得 到 的 
(1/z,，1/y) 作 为 新 变量 求 得 的 线性 组 合 公 式 一 样 ,其 误差 是 di 一 0. 01647 , 比 前 两 个 公式 的 
误差 要 大 。 这 说 明 FDD 方法 能 代替 人 的 经 验 。 

从 许多 试验 数据 的 分 布 状况 中 ,人 们 往往 看 不 出 它 的 具体 规律 ,因此 利用 人 的 经 验 的 做 
法 不 具有 普遍 性 ,而 且 具 有 一 定 的 盲目 性 。 而 使 用 FDD. 1 发 现 经 验 公式 并 不 要 求 用 户 的 经 
验 和 专业 知识 , FDD. 1 系统 很 快 便 能 发 现 效 果 良 好 的 经 验 公 式 , 这 是 FDD 系统 的 一 个 显著 
优点 。 


11.3.3 FDD.2 系统 


1. FDD. 2 问题 描述 


给 定 两 组 可 观察 变量 XCzi,zs*) 以 及 这 组 变量 的 实验 数据 Di (da .dz ) ,i 二 1,2,3,…,n， 
公式 发 现 系统 找 出 该 组 变量 满足 的 数学 关系 式 : f(zxi, zz) 一 c 一 min, 其 中 * 为 常数 , 亦 即 对 
于 任意 一 组 实验 数据 (da .da ) , 均 满足 关系 式 f(da .ds) 一 c 一 min, 所 找 出 的 关系 式 f(x) 是 
任何 形式 的 数学 公式 。 

对 于 关系 式 f(z1， xs) 一 c 二 min 中 的 函数 三 的 复杂 程度 可 分 为 : 

。 变量 的 初等 运算 f(x,y)= 二 x0y, 其 中 90: 十、 一 、x 、/; 

。 变量 的 初等 函数 运算 f(x)==c, 其 中 f(x) 为 初等 函数 ; 

。 初等 函数 的 任意 组 合 f(x.y)==ai f(x)0as f(y); 

。 复合 函数 的 运算 g(f(x)) 二 c, 其 中 g(x)、f(x) 均 为 初等 函数 等 ; 

。 导数 处 理 函数 。 


设 给 出 的 测量 数据 为 : 
1 2 和 N 
于 2 yz Be 交 


则 ,一 阶 差分 : Am 一 zt Ta? A = — yk=1,2,.. ,nO—1) 
二 阶 差分 ; Ay 二 Ayrni 一 Ayx;A?xi 二 AztHi 一 Am (RE 一 1, 2 一 2) 
m 阶 差分 A” yi 一 Ar ye 一 Ar" ly 9 

在 这 里 差分 指向 前 差分 。 

一 阶 差 商 Oy 二 (yin 一 yi)/(zin—z) (k=1,2,.,n—1) 

二 阶 差 商 y= 二 (Gyrri 一 6y2)/(zis—z) (k=1,2,.°,n—2) 
。242 。 


m 阶 差 商 ”ys 一 (6 ye 一 0 yz 一 Zr) 
可 以 用 导数 表达 差 商 ,车 f(z) 在 [a,5] 上 次 可 微 ,zz ,… ,xs 是 [a,6] 内 的 (7) 个 不 同 
的 点 , 则 有 &C(a<#<) 使 "y="? 了 了 (8)/(n 一 1)1。 


2. FDD. 2 规则 描述 


在 FDD.2 系统 中 ,知识 同样 采用 的 是 产生 式 规则 的 表示 形式 (if…then)。 包 括 FDD. 1 
系统 的 规则 外 ,还 包括 如 下 规则 : 

规则 1 差分 发 现 常数 

当 某 一 变量 y 的 差分 取 一 个 常数 c, 则 建立 该 变量 等 于 常数 的 公式 , 即 y==a 十 cx。 

规则 2 差 商 发 现 常数 

当 两 个 变量 y 的 差 商 取 一 个 常数 c, 则 建立 该 变量 等 于 常数 的 公式 , 即 =c。 

规则 3 ”特殊 函数 形式 导数 函数 

(1) 阶 差 ( 向 前 差分 ) 法 判定 类 型 

车 A?y; 王 定 值 , 则 方程 为 yy 一 4 十 07z 十 cz2 ; 

若 Asyw 王 定 值 , 则 方程 为 y=a 十 bx 十 cx? 十 dx ; 

若 ACyi) 二 定 值 , 则 方程 为 :一 < 十 O7r; 

车 A? (yi?) 二 定 值 , 则 方程 为 y= 二 a 十 bz 十 cx?; 

车 A? (xi/wyi) 二 定 值 , 则 方程 为 y= 二 x/ (a 十 bx 十 cx?); 

若 Ay; 成 等 比 数列 , 则 方程 为 > 一 a 姑 十 c; 

若 Alog(yi) 成 等 比 数列 , 则 方程 为 log(y) 二 a 十 bx 十 cx?; 

若 A?y; 成 等 比 数列 , 则 方程 为 y==ab* 十 cx 十 d。 

(2) 差 商 判定 类 型 

若 Alog(y)/Alog(Czi) 王 定 值 , 则 方程 为 logy 二 ax?; 

若 Alog(yi)/Axi 二 定 值 , 则 方程 为 > 一 al 

车 A(xiyi;)/Axi 二 定 值 , 则 方程 为 y=a 十 b/x; 

车 A(xi/yi)/Ax; 二 定 值 , 则 方程 为 y=x/(azx 十 b); 

若 Ayi/A(z?) 三 定 值 , 则 方程 为 y=a 十 bx?。 

规则 4 变量 的 导数 运算 组 合 

当 某 变量 差分 (或 差 商 ) 后 与 男 一 变量 进行 初等 运算 若 等 于 常数 , 则 建立 该 变量 差分 (或 
差 商 ) 的 初等 运算 关系 式 : 


Af(ri)of (xs) 一 < 

其 中 0: 十 \ 一 、x* 、/, 其 中 Af 为 差分 或 差 商 计算 。 

规则 5 两 变量 取 导 数 运算 的 线性 组 合 

两 变量 分 别 取 差 商 运算 后 的 线性 组 合 等 于 常数 c, 则 建立 两 变量 取 导 数 运算 的 线性 组 
合 关 系 式 : 

aidfi(x1)++azdfs(xs) 一 < 
其 中 6Pi (zi) .61ja (zs) 为 差 商 运算 。 
。 243 。 


以 上 规则 和 FDD. 1 中 的 规则 的 谋 套 或 递归 使 用 ,将 形成 变量 的 任意 函数 和 导数 运算 
组 合 。 
3. FDD. 2 公式 发 现实 例 
(1) 导数 函数 公式 的 发 现 
Z,y 为 样本 数据 ,Y 为 发 现 的 公式 计算 值 ,如 表 11. 9 所 示 。 
表 11.9 导数 函数 公式 的 发 现 


z |1.01 | 2.07 | 2.98 | 7.89 | 7.02 | 6.03 | 6.98 | 8.01 | 9.04 | 9.99 | 11.02 | 12.01 | 12.97 


y | 4.61 |10.51|14.65|14.61|11.08| 10.2 | 12.6 |18.27| 27.3 | 24.46 | 22.08 | 19.72 | 20.93 


Y |4.667 |10. 662|14. 248|14. 524|11. 741|10. 383|12. 679|18. 263|27. 174|24. 257|22. 045|19. 965| 21. 115 


发 现 导 数 函 数 公 式 : y 二 1. 52 一 4. 34sin(z) ,误差 : 0. 048。 
(2) 复合 函数 公式 的 发 现 
数据 如 表 11. 10 所 示 。 

表 11.10 复合 函数 公式 的 发 现 


- 0.10 | 0.12 | 0.23 | 0.25 | 0.30 | 0.26 | 0.55 | 0.76 | 0.81 | 0.89 | 0.91 | 1.01 | 1.44 | 1.50 


y 7.146|7.288|6. 156|6. 329|6.782|6.417|9. 532 112. 588|17. 443|14. 936|17. 337| 17. 53 | 37. 81 | 47. 02 


Yi |4.899|5.044|5.924| 6. 10 | 6.561 | 6. 190 | 9. 371 | 12. 51 |13. 385|14. 921|15. 334| 17. 59 | 36. 50 | 43. 98 


Y: |6.65 | 6.66 | 6.67 | 6.80 | 6.92 | 6.82 | 8.38 |11. 236|12. 204|14. 021|14. 530| 17. 43 | 37. 91 | 41. 98 


Ys |7.185|7.310| 6.07 | 6.228| 6.636 | 6. 306 | 9. 268 |12. 525|17. 491|17. 223|17. 696| 18. 33 | 37.0 | 40. 99 


发 现 公式 : Y= 二 7. 94x 一 11. 64log(|cos(x)|) 十 4.25 公式 的 误差 为 0.095, 如 图 11. 4 
所 示 。 


+ + 二 一 一 一 -> 
000 020 040 060 080 100 120 140 160 189 3200 和 


图 11.4 复合 函数 公式 发 现 


另外 还 发 现 两 个 公式 : 
Ya = 6.639005246 十 10. 47187751xzs 
sqrt(Ys) = 0. 92690791 十 1. 221648810er 
。， 244 。 


11.3.4 FDD.3 系统 


1. 多 维 函 数 空间 定义 


多 维 函 数 空间 由 初等 函数 .初等 郴 数组 合 、 复 合 画 数 、 复 合 函 数组 合 、 函 数 导数 等 组 成 。 
初等 函数 组 合 是 初等 函数 之 间 运 算 组 合 ; 导 数 处 理 包括 一 阶 差 分 、 二 阶 差分 一 阶 差 商 ,二 阶 
差 商 等 。 多 维 函 数 空间 的 构造 如 下 : 

定义 1 设 多维 函 数 空间 0Q: 0 二 二 P,V.C 记 ,其 中 : 

P= 二 {用 ，f2，…，, fm) 是 一 个 多 元 函数 集 ,f; 是 多 元 函数 ; 

V= 二 {vv2，,… svi) 是 一 个 有 穷 变 元 集 ; 

C= 二 {csc2，"… ,cx} 是 一 个 有 穷 常 元 集 。 

己 函数 集 可 以 包括 : 

。 算术 运算 (如 十 ,一 ,X,/ 等 ); 

。 初等 函数 (如 1,z! ,zx? ,zys,sin,cosyexp,log 等 一 元 函数 ); 

。 导数 函数 。 


2. 多 维 函 数 空间 性 质 


从 以 上 定义 可 以 看 出 ,多 维 函 数 空间 具有 如 下 性 质 : 

性 质 1: 在 多 维 函 数 空间 中 , 设 EE = VUC., 它 满足 条 件 : 

(1) 对 Ve, 若 eEE, 则 e€EQ; 

(2) 对 Vf,eis 若 f EP, eiEE, 则 f(eises ,se,)EQ,i 二 1,2,…,n, 即 函数 作用 于 变 
元 或 常数 仍然 属于 函数 空间 ; 

(3) 车 Pi,pos… ,psEQ, 则 对 Vf EP, f(pi,ps，…,p,)EQ, 即 函数 作用 于 函数 仍然 
属于 函数 空间 。 

性 质 2: 由 于 函数 作用 于 变 元 或 常数 和 函数 作用 于 函数 仍然 是 函数 , 故 函数 空间 是 封 
闭 的 。 

对 于 在 函数 空间 上 的 任意 函数 组 合 , 仍 然 在 函数 空间 中 ,这 样 为 计算 机 对 函数 空间 的 处 
理 提 供 了 可 以 递归 的 前 提 。 在 函数 空间 中 的 函数 集合 可 以 组 成 解决 问题 的 原型 库 。 原 型 库 
一 般 包 括 初等 函数 .组合 函 数 、 复 合 函 数 , 还 包括 差分 计算 、 差 商 计 算 以 及 导数 计算 等 。 


3. FDD. 3 规则 内 容 


系统 中 的 知识 采用 产生 式 规则 表示 形式 (if…then…) ,规则 内 容 包括 函数 规则 和 控制 规 
则 ,函数 规则 组 成 知识 库 ,知识 库 不 仅 包 括 FDD. 1 系统 规则 ,FDD. 2 系统 规则 ,还 包括 以 下 
规则 。 

(1) 函数 规则 (FunRule) 

对 某 一 变量 z 取 函 数 空间 中 的 一 个 函数 f; 后 与 男 一 变量 y 的 函数 f; 进行 线性 组 合 ， 
得 到 函数 公式 后 ,代入 x 和 y 的 值 , 取 函 数 公 式 两 边 值 的 误差 最 小 , 则 有 函数 公式 : 

ta i= Fp EE PyOMG EE 
。 245 。 


(2) 函数 嵌 套 规则 

对 函数 规则 符 套 或 递归 使 用 ,将 形成 变量 的 任意 组 合 。 

(3) 误差 规则 (ErrRule) 

。 误差 最 小 规则 : 选择 误差 最 小 的 公式 进入 下 一 次 迭代 ; 

。 误差 收敛 规则 : 保留 误差 减 小 的 搜索 方向 ,上 一 次 迭代 的 误差 大 于 目前 的 误差 , 则 

对 于 这 一 搜索 方向 予以 保留 。 

(4) 终止 规则 (EndRule) 

终止 准则 由 两 部 分 组 成 ,一 是 强制 终止 ,一 是 自然 终止 ,强制 终止 通过 对 算法 参数 的 设 
定 ,主要 是 通过 对 迭代 次 数 的 设 定 完 成 终止 准则 ;自然 终止 有 两 种 情况 组 成 ,一 种 是 找到 一 
组 满足 给 定 误差 的 公式 , 另 一 种 情况 是 判断 出 误差 增 大 时 , 则 停止 该 路 径 的 搜索 。 

(5) 多 维 函 数 扩展 规则 (MultiRule) 

@ 扩展 到 三 维 函 数 公 式 的 启发 式 规则 

设 给 定 n 组 不 同 的 数据 {zx ,x ,xz ) ,二 1,2,3,…,n, 存 在 不 同 的 函数 fi,fi,fs, fi 
以 及 常量 C1 ,Cs ，B, ,B, ,有 如 下 函数 关系 : 

。 如 果 在 固定 zs 的 情况 下 得 出 x 和 zs 的 方程 为 


万 (z) = Ca(z) 十 Cs Cl Le 
在 固定 zs 的 情况 下 得 出 zx 和 zs 的 方程 为 
fi(x1) = Bifs(zs)+B, (11.14) 


从 严格 意义 上 讲 , 在 式 (11.13) 中 ,常数 Ci ,Cs 是 zs 的 函数 ;在 式 (11. 14) 中 ,常数 B, ， 
Bs 是 zs 的 函数 。 对 于 同一 函数 fi (zi) 应 该 有 关于 zs 和 zs 的 统一 的 公式 , 故 对 (zi) 而 
言 ,在 式 (11. 14) 中 确定 了 xi 与 zz 的 关系 , 式 (11. 13) 中 确定 了 zi 与 zs 的 关系 ,合并 
式 (11.13) 与 式 (11. 14), 有 如 下 启发 式 公 式 : 


fil(z1) = Cifs(xs)felze) t+C% (11.15) 
filx1) = Cifi(zs) Caf (ra) t+ Cs (11.16) 
。 在 固定 zs 的 情况 下 得 出 zk 和 zs 的 方程 为 

fslx1) = Bifi(zxs)++ Bs C11 179 

合并 式 (11. 13) 与 式 (11.17) 则 有 如 下 多 个 启发 式 公 
fi(r ofa(z) = (cfa(x2) tC )0 BI frs) + Bs) (2) 

其 中 0 为 十 ,一 、x* 、/ 等 操作 。 或 者 : 

fil(z1) 一 gzyz) 十 BCzs) 十 CiP(zz) 十 Cs (11.19) 


8 函数 的 结构 形式 实质 上 是 函数 f, 和 fs 的 复合 形式 ,由 于 fi 和 fs 有 系数 项 也 有 常 
数 项 , 故 fi 和 fs 复合 函数 形式 根据 具体 函数 的 不 同 有 不 同 的 合并 方式 ,常见 的 是 用 一 个 公 
式 的 函数 项 去 替换 另外 一 个 公式 的 系数 和 常数 。 

@ 扩展 到 四 维 函 数 公式 的 启发 式 规则 

设 在 三 维 数据 的 基础 上 增加 一 维 数据 zs ,如 果 得 到 公式 

(zz) 一 Cig(Cziyzs) 十 Cs (11. 20) 
Ria) = fu (my BC Ch 
则 有 如 下 启发 式 公 式 : 
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人 《3 
falz2) 一 Cg 人 (zz) 十 Cs 关 (Cz) 十 CS [站 

@ 多 维 函 数 的 扩展 
通过 增加 函数 变量 的 方法 可 以 实现 对 多 维 函 数 变量 公式 的 发 现 。 多 维 函 数 扩展 规则 给 
出 了 函数 公式 的 具体 框架 表示 形式 ,最 后 必须 通过 给 定 的 数据 对 各 个 启发 式 公 式 进行 检验 ， 
决定 公式 的 取舍 。 首 先 , 通 过 实际 给 出 的 数据 应 用 最 小 二 乘法 计算 上 式 中 各 个 常量 的 值 ;其 
次 通过 给 定 的 数据 确定 各 个 启发 式 公 式 的 误差 ,最 后 进行 选择 ,满足 误差 需求 的 公式 即 为 所 


4. 三 维 函 数 公式 的 发 现实 例 


(1) 试验 数据 
给 定数 据 如 表 11. 11 所 示 。 


表 11.11 三 维 数据 实例 


Zl Ts Ts Xl Te Ts 
1.30 2.10 1.85 2. 30 7. 10 2. 20 
1.29 2.50 1.69 2. 43 7.09 2.17 
1.31 7.50 1.60 2.56 Te 2.14 
1.29 4.00 My 2. 88 7. 10 2.04 
1.32 LA 2.29 


对 于 前 5 组 数据 ,可 以 认为 zi 为 恒定 ,应 用 二 维 函 数 公式 发 现 算法 , 找 出 变量 ze 和 zs 

的 关系 ,得 到 5 个 公式 ,选择 误差 最 小 一 个 公式 如 下 : 
xz 一 2.02 X cos(zs) 十 4.46 ”误差 为 : 0.0016 (11.24) 

对 于 后 5 组 数据 ,可 以 认为 zs 为 恒定 ,应 用 二 维 函 数 公 式 发 现 算法 ,得 到 三 个 公式 , 选 
择 误差 最 小 的 两 个 公式 如 下 : 

ZX$ 二 1.5X sin(xzi) 十 7.75 ”误差 为 : 0.00026 CL 2 
logio (zs) 二 0.07sin(x1) 十 0.29 ”误差 为 : 0.00015 (11. 26) 

应 用 三 维 启 发 规则 ,将 式 (11. 24) 和 式 (11. 25) 合 并 , 式 (11. 24) 和 式 (11. 26) 合 并 ,得 到 

一 系列 公式 ,计算 误差 后 得 到 满足 误差 要 求 的 公式 为 
zi 一 1.5Xsin(zl) 十 2.02Xcos(Czs) 十 7.0 C1 27) 

该 公式 等 式 两 端 误差 为 : 0.00041。 

(2) 折射 定律 的 发 现 

实验 数据 如 表 11. 12 所 示 ( 液 体 ,温度 为 20C ) 。 

设 入 射 角 为 i, 折射 角 为 Y, 入 射线 所 在 介质 的 折射 率 为 ,折射 线 所 在 介质 的 折射 率 为 
za 。 因 为 光 的 可 逆 性 ,所 以 人 射 角 和 和 射线 的 折射 率 与 折射 角 和 折射 线 的 折射 率 两 组 数据 
可 以 互 换 , 折 射 角 7y 改 为 人 射 角 i, 和 人 射 角 i 变 为 折射 角 和 7y, 入 射线 和 折射 线 所 在 位 置 的 折射 
率 也 相应 的 调换 。 
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表 11.12 不 同 介质 间 光 线 折 射 数 据 


从 空气 中 入射 率 半 (ma ,i 恒定 ) 从 空气 射 人 玻璃 (nm ,zz 恒定 ) 
和 折射 率 ns 入 射 角 i 折射 角 y 入 射 角 i 折射 角 y 
丙酮 1.3585 30 21. 60 30 19. 47 
苯胺 1.5863 30 18. 37 35 22. 48 
莱 1. 5014 30 19. 45 40 2 
二 硫化 碳 1.6279 30 17. 89 45 28. 13 
四 氧化 碳 1. 4607 30 20. 02 50 3 本 9 
肉桂 醛 1.6195 30 gh 55 37.10 
氯仿 1. 4453 30 20. 24 60 37. 26 
乙醇 1.3618 30 21.54 


对 于 从 空气 中 入 射 到 各 介质 ,固定 = 二 1 和 i 二 30 角 后 ,应 用 二 维 函 数 公式 发 现 算法 ， 
对 不 同 物质 得 到 折射 率 和 折射 角 的 公式 : 
sin(7Y) = 0. 5/nz (11. 28) 
反之 ,从 介质 中 人 射 到 空气 时 (ma 变 为 n, .i 角 变 为 7 角 ) ,固定 mn, 和 y 角 后 ,发 现 公 
式 为 
sin(i) = 0. 5/m (11. 29) 
现在 固定 空气 和 玻璃 两 种 介质 时 (nm 二 1.ns 二 1. 66 恒定 ), 入 射 角 i 和 折射 角 y 的 关系 ， 
通过 公式 发 现 得 : 
sin(i) = 1.5 X sin(7) (11. 30) 
式 (11. 28) 和 式 (11. 29) 两 个 公式 从 空气 中 入 射 不 同 物质 的 数据 中 生成 , 式 (11. 30) 为 从 
空气 中 人 射 玻璃 的 一 组 数据 中 生成 。 式 (11. 29) 和 式 (11. 30) 应 用 三 维 扩展 规则 得 : 
sin(i) = Ci X sin(Y)/ni 十 Cs, 即 


sin(7Y) = Cr X sin(i) Xm+t+Cz 攻 业 卫 六] 
对 式 (11. 28) 和 式 (11. 31) 利 用 四 维 扩展 规则 进行 合并 ,得 : 
sin(Y) = C4X sin(i) X (nm/nzs)+C% &LL 
用 已 知 的 数据 确定 系数 ,得 C1 二 1,Cz 二 0, 即 得 Snell 折射 定律 : 
sin(i) Xm = sin(7Y) X ns LLL 32) 


5. FDD. 1、FDD.2 和 FDD.3 的 比较 分 析 


FDD. 2 是 通过 引入 导数 规则 对 FDD. 1 算法 得 规则 进行 扩充 ,同时 修改 算法 流程 ,使 得 
算法 运行 更 加 合理 ,扩大 了 发 现 公式 的 宽度 和 广度 。FDD. 3 算法 引入 多 维 函 数 处 理 规 则 后 
对 FDD. 2 算法 进行 了 扩充 ,同时 通过 嵌 套 FDD. 2 算法 流程 ,实现 了 三 维 以 上 公式 发 现 算法 
FDD. 3。 把 这 三 个 进行 比较 分 析 , 如 表 11. 13 所 示 。 
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表 11.13 FDD.1、FDD.2 和 FDD.3 的 比较 分 析 


比较 方面 FDD. 1 FDD.2 FDD. 3 
时 间 复 杂 度 O(8nm) OC2n:m) OCC32722772) 
不 同 个 
流程 循环 丽 数 作用 于 一 个 变量 | 个 时 四 次 作用 丁克 人 
a 误差 最 小 原则 误差 最 小 原则 
剪 枝条 件 次 安民 小原 其 误差 收敛 原则 误差 收敛 原则 
二 1 上 增加 ， 
去 届 公 趟 站 间 “| 初等 孙 数 ,复合 函数 及 其 | 在 FDD. 1 基础 上 增加 导 | 灾 寺 六 大 2 上 上 二 
9 » A -i 
组 合 数 以 及 和 导数 相关 的 处 理 | 字 维 扩展 规则 


说 明 : n 为 函数 个 数 ,m 为 搜索 树 的 深度 ,d 为 维 数 。 


在 进行 算法 的 时 间 复 杂 度 分 析 时 ,由 于 搜索 树 的 剪 枝 根 据 具体 情况 的 不 同 而 不 同 , 所 以 
假设 在 没有 剪 枝 的 情况 下 分 析 各 个 算法 的 时 间 复 杂 度 。 由 于 算法 流程 的 不 同 , 在 发 现 同样 
形式 的 公式 情况 下 ,FDD. 1 和 FDD. 2,FDD. 3 搜索 树 的 深度 不 同 ,FDD. 1 算法 搜索 树 深度 
是 FDD. 2,FDD. 3 算法 的 两 倍 。 

在 FDD. 1 算法 中 ,每 个 函数 对 两 个 变量 分 别 作 用 的 时 间 复 杂 度 O(2n) ,选择 两 个 误差 
小 的 进入 下 面 的 分 支 ,并 且 树 的 深度 是 2 , 则 时 间 复 杂 度 为 O(8nm) 。 

在 FDD. 2 算法 中 ,两 个 函数 同时 作用 于 两 个 变量 时 间 复 杂 度 为 O(zz) ,选择 误差 小 的 
和 误差 收敛 的 进入 下 一 个 循环 , 则 时 间 复 杂 度 为 O(2nnm)。 在 FDD. 3 算法 中 , 设 函 数 的 维 
数 为 d, 则 任 取 其 中 的 两 个 变量 的 组 合 为 C3 个 ,所 以 整个 算法 的 时 间 复 杂 度 为 O(C32n?m)。 
FDD. 3 算法 的 发 现 公 式 的 广度 是 以 牺牲 时 间 为 代价 的 。 

BACON 系统 采用 “项 三 常数 ”的 形式 描述 公式 形式 ,而 FDD 采用 “项 三 初等 函数 或 初 
等 函数 的 复合 形式 ”, 并 且 引 入 导数 规则 等 ,和 BACON 相 比 发 现 公 式 的 范围 和 复杂 度 都 有 
很 大 提高 。 


习 题 11 


1. 数据 拟 合 的 基本 思想 是 什么 ? 有 哪些 优点 和 缺点 ? 
2. 从 BACON 系统 的 实例 看 ,公式 发 现 与 数据 拟 合 有 什么 不 同 ? 
3. BACON 系统 的 简练 算 子 有 哪些 ? 
4. BACON 系统 是 如 何 完 成 开 普 勒 第 三 定律 的 发 现 的? 
5. BACON 系统 是 如 何 发 现 理 想 气体 定律 的 ? 
6. BACON 系统 的 启发 式 是 什么 ? 
7. 科学 定律 运用 曲线 拟 合 能 发 现 吗 ? 
8. FDD 系统 的 思想 是 什么 ? 
9. FDD. 1 系统 的 启发 式 函 数 是 什么 ? 
10. FDD. 1 系统 结构 图 的 基本 思想 是 什么 ? 
11. FDD. 1 系统 中 函数 原型 有 哪些 ? 
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12. FDD. 1 系统 中 的 知识 有 哪些 ? 

13. FDD. 1 系统 完成 开 普 勒 第 三 定律 的 现 的 过 程 是 什么 ? 它 与 BACON 系统 的 发 现 
过 程 有 什么 不 同 ? 

14. FDD. 2 发 现 导 数 公式 的 启发 式 是 什么 ? 

15. FDD. 3 发 现 多 维 函数 公式 的 启发 式 是 什么 ? 

16. FDD 系统 与 BACON 系统 有 什么 不 同 ? 
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12.1 变换 规则 的 知识 挖掘 


本 节 讨 论 一 种 新 的 规则 知识 , 即 含 变换 的 规则 知识 , 称 为 变换 规则 知识 ,这 是 一 种 适应 
变化 环境 的 新 知识 ,也 是 元 知识 的 一 种 新 的 表示 形式 。 变 换 规则 知识 的 挖掘 是 在 数据 挖掘 
获得 的 规则 知识 的 基础 上 ,加 上 规则 中 前 提 或 结论 的 变换 ,获得 变换 规则 知识 。 


12.1.1 适应 变化 环境 的 变换 和 变换 规则 
12.1.1.1 数学 变换 与 可 拓 变 换 
1. 数学 变换 


(1) 数学 中 的 函数 是 一 种 变换 ,如 y= f(x) 表 示 把 xz 值 经 过 函数 计算 变换 成 y 值 。 

(2) 数学 中 的 变量 求 值 也 是 一 种 变换 ,如 方程 f(x) 二 0 的 求解 ,实质 上 是 对 变量 x 通过 
方程 的 求解 ,得 到 的 具体 值 , 即 变量 x* 从 未 知 到 已 知 ” 的 变换 ,可 称 “ 求 值 变换 ”。 

(3) 计算 机 中 的 过 程 是 向 量变 换 , 如 过 程 F(X,Y) 表 示 把 输入 向 量 XCz,zz,…',znw) 值 
经 过 过 程 计算 变换 成 输出 向 量 Y(yi ,> ,，…'yn) 值 。 

(4) 数学 中 的 坐标 变换 ,如 坐标 的 平移 和 旋转 ,把 曲线 (曲面 ) 方 程 的 一 般 形式 变换 成 标 
准 形式 。 使 不 清晰 的 方程 变换 成 清晰 的 椭圆 .抛物线 ( 面 )、 双 曲线 ( 面 ) 等 标准 方程 。 

(5) 数学 中 的 积分 变换 ,如 拉 普 拉 斯 变换 把 不 能 求解 的 微分 方程 变换 成 可 求解 的 代数 
方程 。 在 代数 方程 求 出 解 后 ,再 通过 拉 普 拉 斯 逆 变 换 , 把 代数 方程 的 解 变换 成 微分 方程 
的 解 。 

以 上 数学 变换 均 把 未 知 的 变量 .不 能 求解 的 方程 变换 成 已 知 的 量 值 、 能 求解 的 方程 , 体 
现 了 定量 变化 的 特点 。 

2. 可 拓 变 换 

在 可 拓 学 中 ,利用 可 拓 变 换 来 解决 矛盾 问题 。 

定义 1 可 拓 变 换 定义 为 对 对 象 ( 物 元 、 事 元 、 关 系 元 \ 准 则 、 论 域 ) 的 变换 , 即 : 

Tu=v ‘C12.1) 

可 拓 变 换 工 将 对 象 x 变 为 对 象 u。 可 拓 变 换 包 括 置 换 变换 增删 变换 、 扩 缩 变换 ,分 解 
变换 、 复 制 变 换 等 。 

3. 变换 的 逻辑 表示 

数学 变换 或 可 拓 变 换 在 此 统称 为 变换 。 

变换 将 对 象 u 变 为 对 象 v, 实 际 上 完成 了 自身 变 为 ~u, 并 使 v 成 为 真 。 这 样 ,变换 可 
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以 用 形式 逻辑 表示 。 
定义 2 变换 的 形式 逻辑 表示 为 
Tu 一 ~uNv (C12,.2) 


4. 变换 的 宏观 抽象 作用 


(1) 数学 和 计算 机 中 的 变换 概括 了 函数 、 求 值 、 过 程 的 概念 ,是 隐 含 了 具体 的 计算 ,抽象 
为 一 个 宏观 变换 。 实 质 上 是 “从 定量 到 定性 ”的 抽象 。 

(2) 专家 系统 的 目标 包含 了 多 个 取 值 , 对 不 同 问题 目标 取 值 是 不 同 的 ,对 一 个 实际 问题 
的 目标 取 值 是 通过 知识 推理 来 获得 的 。 它 实质 上 是 一 个 目标 求 值 的 变换 ,起 到 了 宏观 的 
“从 定性 到 定性 ”抽象 的 作用 。 

可 见 ,“ 变 换 ” 可 以 是 简单 变换 , 即 把 一 个 具体 的 对 象 变 换 成 男 一 个 具体 的 对 象 。“ 变 换 ” 
可 以 是 复杂 的 宏观 的 变换 , 即 把 一 个 目标 变换 成 男 一 个 目标 。 目 标 既 可 以 是 一 系列 定量 计 
算 过 程 的 抽象 ,也 可 以 是 多 次 定性 推理 过 程 的 抽象 。 


12.1.1.2 变换 规则 


变换 可 能 由 某 个 条 件 ( 原 因 ) 产 生 或 者 变换 会 引起 某 个 结果 。 本 书 作者 在 变换 的 基础 上 
提出 了 变换 产生 式 , 即 变换 规则 概念 。 


1. 变换 了 由 某 一 条 件 或 原因 所 引起 


Condition 一 Tu 一 了 《12.37 
(1) 条 件 Condition 可 能 是 某 一 事实 F= f, 具 体 表示 为 
F=f/>Tu=v (12. 4) 
(2) 条 件 Condition 可 能 是 另 一 个 变换 Ta 二 4b, 具 体 表示 为 
Ta=b—Tu=v C25 


注意 : 为 区 分 不 同 的 变换 ,在 变换 的 下 角 加 以 标注 , 即 T,、T,。 
(3) 条 件 Condition 可 能 是 一 个 算 子 A 求 出 变量 X 的 值 ,表示 为 
A(z)=b— Tu=v 《12.6) 


2. 变换 了 产生 一 个 结果 


Ta = b — result CL 7 
结果 result 同样 可 能 是 一 个 事实 ,或 者 是 另 一 个 变换 。 


3. 变换 规则 定义 


定义 3 包含 变换 的 规则 , 即 与 变换 有 关 的 具有 产生 式 关 系 的 规则 式 , 统 称 为 变换 规 
则 ,或 称 变换 产生 式 。 
变换 规则 是 一 种 新 的 知识 表示 形式 。 这 种 新 的 知识 ,用 于 解决 矛盾 问题 时 , 称 为 可 拓 知 
识 。 在 式 (12. 3) 一 式 (12.7) 中 , 式 (12.5) 是 典型 的 变换 规则 的 代表 形式 。 在 可 拓 学 中 ， 
式 (12.5) 中 结论 的 可 拓 变 换 称 为 前 提 可 拓 变 换 的 传导 变换 ,变换 规则 知识 称 为 可 拓 知 识 。 
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4. 变换 规则 知识 与 规则 知识 的 对 比 


(1) 规则 知识 
在 人 工 智能 中 一 般 知识 表示 成 规则 形式 , 即 规则 知识 ,表示 为 
P==Q 

其 中 也 与 Q 均 为 事实 (变量 的 取 值 ) 它 表示 事实 已 是 事实 Q 的 原因 ,事实 Q 是 事实 P 的 结 
果 。 知 识 只 体现 了 P 与 Q 两 个 事实 间 的 静态 关系 。 

(2) 变换 规则 知识 

变换 规则 知识 中 ,规则 的 前 项 或 者 后 项 中 包括 了 变换 ,而 变换 将 一 对 象 变换 为 另 一 个 对 
象 ,体现 了 变化 的 特点 。 

公式 (12.5) 表 示 变 换 T, 把 a 变换 .引起 了 另 一 个 变换 工 , 把 x 变 成 V, 这 种 变换 规则 
知识 完全 体现 了 变化 的 情况 ,因此 ,变换 规则 知识 是 适应 变化 的 知识 ,相对 而 言 ,人 工 智能 的 
知识 是 静态 知识 。 也 可 以 说 变换 规则 知识 是 知识 的 推广 ,是 一 种 更 有 价值 的 知识 。 


12.1.2 变换 规则 的 知识 挖掘 的 理论 基础 


数据 挖掘 是 利用 算法 获取 规则 知识 (条 件 一 结论 ) 。 我 们 在 数据 挖掘 获取 知识 的 基础 
上 , 若 规则 的 条 件 和 结论 都 存在 变换 ,将 获得 变换 规则 知识 : 
了 条 件 -> 了 结论 
把 这 种 挖掘 变换 规则 知识 称 为 新 型 的 变换 规则 的 知识 挖掘 , 即 在 规则 知识 的 基础 上 控 
掘 变换 规则 知识 。 它 不 同 于 数据 挖掘 是 在 数据 的 基础 上 挖掘 知识 。 


12.1.2.1 变换 规则 的 知识 挖掘 定理 


定理 1 对 于 两 类 规则 


A—P (Cla. 
B—N (12. 9) 
一 般 情况 A= Aa;,B= Ab;。 
车 存在 条 件 的 变换 Ts 
Ts(B)=A (12. 10) 
并 存在 结论 的 变换 Tv 
Ty(N)=P Ci ly 
则 成 立 变换 规则 知识 
Ts(B)=A— Ty(N)=P C2 2 
即 
if Ts(B) = A then Ty(N)=P (12.13) 
证 明 : 


(1) 定理 的 已 知 条 件 表示 成 命题 逻辑 公式 ,并 化 为 子 句 型 
AP AYP: 
b. B> Ne -BVN; 


c. Ts(B) = Am -BAA~-B, A; 
d. Ty(N) = Po NAPS Ns Ps 
(2) 对 定理 的 结论 取 非 后 化 成 子 句 型 
-7(Ts(B) = ATwCN)=P) 汪 [CBAA) 一 (NAP)] > 
mLn”(CnB)AA)VCnNAP)] 一 [COBV mA)V(C”NAP)] 全 
-7(BV-5A)A-7( NAP "BAAN(NV -5P) > 1B, A, NV-P, 
(3) 对 全 部 子 句 集 进行 归结 
a. 全 部 子 句 集 为 
7AVP, -BVN, -7B,A, -N,P,NV-P 
b. 归结 过 程 
子 句 AVP 与 子 句 A 归结 为 P, 它 与 子 句 NV ~-P 归结 为 N ,再 和 子 句 ” N 归结 为 空 
子 句 ,产生 矛盾 , 故 证 明定 理 正确 。 
定理 2 对 于 两 条 同类 规则 


A—P (12. 14) 
CAB=P (12, 15) 
若 存 在 可 拓 变 换 Ts 
Ts(B)=A (12. 16) 
则 成 立 : 可 拓 变 换 规则 知识 
Ts(B)=A—P C2 17 
即 
it Ts(B) = A then P Ch2, 18) 


该 定理 同样 可 用 归结 原理 证 明 , 此 处 省 略 。 
12.1.2.2 变换 规则 的 知识 挖掘 过 程 


从 变换 规则 的 知识 挖掘 定理 中 ,可 以 概括 变换 规则 的 知识 挖掘 过 程 为 : 

Step 1 对 分 类 问题 利用 数据 挖掘 方法 获得 分 类 规则 , 即 获得 式 (12. 8) 和 式 (12.9) 的 
规则 知识 。 

Step 2 ”确定 规则 的 前 提 中 存在 的 变换 以 及 结论 中 存在 的 变换 , 即 找 出 满足 式 (12. 10) 
和 式 (12. 11) 的 变换 。 

Step 3 ”利用 定理 1 和 定理 2 获得 变换 规则 的 知识 式 (12. 12) 或 式 (12. 17)。 


12.1.2.3 变换 规则 的 知识 挖掘 实例 


在 本 书 7. 2. 2 节 中 ,对 表 7. 1 气候 训练 集 ,利用 ID3 方法 得 到 决策 树 知识 ( 见 图 7. 4)， 
将 它 转换 为 规则 知识 ( 树 中 从 根 结 点 到 叶 结 点 的 每 一 条 路 径 构成 一 条 知识 ) 。 
(1) 数据 挖掘 获取 的 规则 知识 
if 天 气 = 晴 and 湿度 = 正常 then 类 别 =P 
if 天 气 == 多 云 ”then 类 别 =P 
if 天气 = 十 and 风 = 无 风 then 类 别 =P 
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if 天气 一 睛 and 湿度 一 高 then 类 别 一 N 
计 天 气 王 雨 and 风 天 有 风 then 类别 =N 


(2) 存在 的 变换 
@ 条 件 变换 
Ti( 天 气 = 晴 ) = (天 气 = 多 云 ) 
TT 天气 三 精 ) 三 (天 气 三 两 ) 
Ts( 天 气 = 两 六 一 《天 气 = 多云 ) 
T4 (天气 = 多 云 ) = (天 气 = 晴 ) 
Tt 天 气 三 十) 三 (天气 三 哺 》 
(天 气 二 乡 去 7》 二 天气 二 而 》 
Ti (湿度 = 高 ) = ( 湿度 = 正常 ) 
Ts (湿度 = 正常 ) = ( 湿度 = 高 ) 
Ts( 风 = 无 风 ) =( 风 = 有 风 ) 
Tw( 风 = 二 有 风 ) =( 风 = 无 风 ) 
@ 结论 变换 
T(N)=P 
T(P)=N 


(3) 利用 变换 规则 的 知识 挖掘 的 定理 1 和 定理 2, 可 以 得 到 变换 规则 知识 
@ 类 别 发 生变 化 的 知识 
(天 气 = 晴 ) and (T; (湿度 = 高 ) = ( 湿度 = 正常) ) 一 TON) = 一 忆 
(湿度 = 高 ) and (Ti (天 气 = 晴 ) = (天 气 = 多 云 ) ) 一 T(ON) = P 
(天 气 = 雨 ) and (Tw( 风 = 有 风 ) = ( 风 王 无 风 )) 一 TON) 一 忆 
( 风 = 有 风 ) and (Ts (天气 = 雨 ) = (天 气 = 多 云 ) ) 一 TON) = 忆 
(天 气 = 晴 ) and (Ts (湿度 = 正常 ) 一 ( 湿度 = 高 ) ) 一 T(P)=N 
(天 气 = 雨 ) and (Ts( 风 = 无 风 ) = ( 风 = 有 风 )) 一 TIP) = 
@ 类 别 不 发 生变 化 的 知识 
(湿度 = 正常 ) and (Ti (天 气 = 晴 ) = (天 气 = 多 云 ) ) 一 类 别 =P 
( 风 = 无 风 ) and (Ts (天 气 = 雨 ) = (天 气 = 多 云 ) ) 一 类 别 = P 
( 风 = 无 风 ) and (Te( 天 气 = 多 云 ) = (天 气 = 雨 ) ) 一 类 别 王 P 
(湿度 = 正常 ) and (Ti (天气 = 多 云 ) = (天 气 = 晴 ) ) 一 类 别 =P 
这 些 变 换 规则 知识 告诉 人 们 ,在 天 气 变 化 时 ,类 别 会 不 会 发 生变 化 。 这 种 适合 变化 环境 
的 变换 知识 , 比 静态 知识 有 时 更 有 用 。 


12.1.3 变换 规则 的 知识 推理 


在 智能 科学 中 ,知识 推理 采用 了 形式 逻辑 中 的 假 言 推理 。 变 换 规则 知识 的 推理 是 对 变 
换 规 则 知识 的 假 言 推理 。 
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12.1.3.1 变换 规则 的 知识 推理 式 


定义 4 变换 规则 知识 的 假 言 推理 表示 为 
(Tiu =u) A[(Tw =u) = (Tw = vj FH (Tw = vw) 
变换 规则 知识 的 推理 是 在 知识 推理 的 基础 上 扩展 为 对 变换 规则 知识 的 推理 。 下 面 证 明 
变换 规则 知识 推理 式 (12. 19) 是 正确 的 。 


证 明 : 


(1) 将 式 (12. 19) 中 推理 ( 上 ) 的 左 部 写成 等 价 的 命题 逻辑 公式 


(TuNu ALGnzeAx) 一 (mvAzv)] 


(2) 上 式 化 为 子 句 型 


(7h 
(Tuh 
(muh 
(muh 
Cw A 


1/ 
Tus 


u) A [ou A > hv A vO > 

uu) Af- Cu A VV Cv A vo 

uw 人 [GeV Du dV (Hv A vo 

uw A [ay ou VV Do) AV nm Vv oO 
uu AV ow VN AV ou VV vo 
(VV ow VN oo, uV Tu Vv) 


(3) 将 推理 ( 上) 的 右 部 取 非 后 ,化 为 子 句 型 


(4) 归结 过 程 


-7(Tv=v oe (mv Nv ovV 7 


C12; 190 


子 句 v V 一 vw 与 子 句 (uV mu V ma) 归结 为 了 -vwV wu V -wu , 它 与 子 句 =u 归结 
为 -vwV 一 wu ,与 w 归结 为 ~-v ,再 与 子 句 (wuV -ww Vv) 归结 为 uV -wu ,与 ”归结 为 
了 wu ,再 与 w 归结 为 空子 句 。 产 生 矛 盾 , 证 明 可 拓 推 理 式 (12.19) 是 正确 的 。 

变换 规则 知识 只 表明 存在 对 象 变化 的 可 能 性 。 变 换 规则 知识 的 推理 表明 实际 对 象 变化 
的 发 生 。 在 式 (12.19) 中 ,变换 规则 知识 (T, 一 T,) 只 表明 对 的 变换 T, 会 引起 对 wv 的 变 
换 T,。 在 推理 式 中 现 已 发 生变 换 T, , 按 推理 式 的 推理 必然 出 现 变换 T, 。 


12.1.3.2 变换 规则 的 知识 挖掘 实例 
在 “ 脑 血 栓 ”与 * 脑 出 血 ” 两 类 疾病 的 数据 库 中 进行 数据 挖掘 和 变换 规则 的 知识 挖掘 。 
1. 在 数据 库 中 通过 数据 挖掘 获取 规则 知识 


从 “ 脑 出 血 ” 和 *“ 脑 血栓 ”两 种 疾病 的 大 量 实例 数据 库 中 ,通过 数据 挖掘 的 遗传 算法 可 以 
获取 两 种 疾病 独立 诊断 的 规则 知识 。 获 得 的 主要 7 条 规则 (具体 数据 挖掘 过 程 从 略 ): 

(1) (高 血压 二 有 ) 入 (瞳孔 不 等 大 = 是 ) 人 ( 膝 腿 反射 = 不 活跃 ) 习 脑 出 血 ; 

(2) (瞳孔 不 等 大 = 是 ) 和 (语言 障碍 二 是 ) 一 脑 出 血 ; 

(3) (高 血压 三 有) 人 (起 病 方式 == 快 ) 人 (意识 障碍 二 深度 ) 习 脑 出 血 ; 

(4) (高 血压 二 有) 人 (病情 发 展 = 快 ;一 脑 出 血 ; 

(5) (高 血压 三 有) 人 (动脉 硬化 二 有 ) 人 (起 病 方 式 == 慢 ) 习 脑 血 栓 ; 

(6) (动脉 硬化 二 有 ) 人 (病情 发 展 = 慢 ) 一 脑 血栓 ; 
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(7) (动脉 硬化 = 有 ) 和 人 ( 意 识 障 碍 王 无) 一 脑 血 栓 。 
2. 确定 存在 的 条 件 变换 和 结论 变换 


在 医疗 中 病人 存在 的 条 件 变换 有 : 
Ts## (起 病 方式 慢 ) = 起 病 方式 快 
T# 人 (无 意识 障碍 ) = 深度 意识 障碍 
也 存在 结论 变换 : 
Ts# 论 ( 脑 血 栓 ) = 脑 出 血 


3. 利用 变换 规则 的 知识 挖掘 理论 获取 变换 规则 知识 


根据 定理 1 得 到 变换 规则 知识 
T( 有 动脉 硬化 人 起 病 方式 慢 人 无 意识 障碍 ) = 起 病 方式 快 人 有 深度 意识 障碍 

一 工 ( 脑 血栓 ) = 脑 出 血 (12. 20) 
还 可 以 得 出 其 他 的 变换 规则 知识 。 


4 变换 规则 知识 的 推理 


变换 规则 知识 中 的 前 提 一 旦 在 现实 中 出 现 ,就 可 以 利用 变换 规则 知识 的 推理 判断 变换 
规则 知识 中 结论 的 出 现 。 当 发 现 某 病人 由 “起 病 方式 慢 " 变 成 “起 病 方 式 快 ”", 同 时 “无 意识 障 
碍 ” 变 成 “有 深度 意识 障碍 ”, 即 变换 规则 知识 式 (12. 20) 的 前 提 已 经 出 现 , 利 用 变换 规则 知识 
的 推理 式 (12. 19) 就 可 以 判断 变换 规则 知识 式 (12. 20) 的 结论 已 经 出 现 , 即 应 该 诊断 该 病人 
已 经 由 “ 脑 血栓 ” 变 成 了 “ 脑 出 血 ”。 治 疗 方式 就 应 改 由 “ 脑 血 栓 ” 的 治疗 方法 变 成 治疗 “ 脑 出 
血 ” 的 方法 。 

两 种 疾病 的 治疗 方法 是 完全 相反 的 ,“ 脑 血栓 ”的 治疗 方法 是 通 血 管 ,使 血 流通 畅 。 而 
“ 脑 出 血 ” 的 治疗 方法 是 堵 血 管 ,不 让 血 流 外 溢 。 当 * 脑 血栓 ?已 变 成 了 * 脑 出 血 ” 后 ,车 仍然 用 
“ 脑 血 栓 ? 的 治疗 方法 治疗 * 脑 出 血 ”, 即 继续 通 血管 , 这 样 只 可 能 造成 更 大 范围 的 脑 出 血 , 将 
会 加 重 * 脑 出 血 ” 症 状 ,甚至 于 导致 死亡 。 这 条 变化 知识 对 医生 来 讲 是 极其 重要 的 。 

可 见 ,挖掘 具有 变化 特点 的 变换 规则 的 知识 挖掘 比 挖掘 静态 规则 知识 的 数据 挖掘 更 有 
意义 。 
12.1.4 变换 规则 链 的 知识 挖掘 

12.1.4.1 基于 集合 的 变换 规则 知识 


在 集合 论 中 有 集合 蕴含 关系 ,定义 如 下 : 
定义 5 若 集合 P 和 Q 存在 关系 PCQ, 则 成 立 蕴含 关系 
P=Q Cl. 21》 
即 集合 P 中 的 元 素 z 一 定 属于 集合 Q。 由 此 定义 可 以 得 到 如 下 定理 : 
定理 3 (基于 集合 的 变换 规则 ) 对 于 变换 Ta 二 b 和 变换 Tue 二 了 ,车 存在 集合 关系 a 叶 
e,b 夺 f, 则 存在 变换 规则 知识 : 
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Ta=b>Te=f (12. 22) 
简写 为 : T。>T,, 并 称 变换 T。 与 工 ., 是 同类 变换 , 即 两 个 变换 前 的 对 象 ta,e} 与 两 个 变 
换 后 的 对 象 {6,/}) 均 在 各 同类 集合 中 。 


证 明 : 
(1) 由 于 aSe, 由 定义 5 可知 ,存在 蕴含 关 系 : 

CE 一 CC 《3 
(2) 由 于 2S 六 ,同样 存在 草 含 关系 : 

bf C12:24) 


根据 定理 1 可知 ,对 于 式 (12. 23) 和 式 (12. 24) ,存在 可 拓 变 换 Te 二 5b 和 Te 二/， 则 存 
在 变换 规则 知识 : 
Ta=b—>Te=/f KD 5 


12.1.4.2 基于 本 体 的 变换 规则 知识 链 


本 体 (ontology) 是 目前 研究 最 多 的 知识 表示 形式 ,本 体 是 共享 概念 的 规范 化 说 明 , 本 体 
在 概念 分 类 层次 的 基础 上 ,加 入 了 关系 .公理 规则 来 表示 概念 之 间 的 关系 。 

定义 6 (本 体 ) 本 体 由 概念 关系、 函数 、 公 理 和 实例 等 五 类 基本 元 素 构 成 ,表示 为 如 下 
形式 ， 

O'= [CRFA、 苛 (12. 26) 

其 中 ,C 为 概念 ,R 为 关系 ,下 为 函数 ,A 为 公理 ,7 为 实例 。 关 系 尺 有 4 种 : subclass-of (或 
kind-of , 子 类 ) .partrof( 部 分 ) ,instance-of( 实 例 ) 和 attribute-of( 属 性 ) 。 

本 体 概念 树 的 层次 关系 主要 是 subclass-of 关系 , 即 树 的 下 层 概念 是 上 层 概 念 的 子 集 ， 
如 图 12.1 所 示 。 


概念 1 
Sub-of se 
概念 11 概念 12 
AN As 
Sub-of Sub-of Sub-of ”Sub-of 
玉 2 
概念 111 概念 112 概念 121 概念 122 


图 12.1 本 体 概 念 树 


概念 11 的 是 概念 1 的 子 集 ,而 概念 111 的 是 概念 11 的 子 集 等 等 。 

根据 本 体 概 念 树 的 特点 和 定理 3, 可 以 得 到 如 下 定理 ;: 

定理 4 本 体 概念 层次 关系 中 ,下 层 概 念 的 变换 Tv 与 上 层 概 念 的 同类 变换 T, ,存在 变 

换 规则 : 
T= 放 (12. 279 

证 明 : 

本 体 概念 层次 关系 中 ,下 层 概 念 集合 S4 与 上 层 概 念 集合 S. 存在 蕴含 关系 : SeSS,。 

根据 定理 3 可 知 , 下 层 概 念 集合 Se 中 的 变换 T。 与 上 层 概念 集合 S, 中 的 同类 变换 了 
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存在 变换 规则 的 蕴含 关系 , 即 变换 规则 : 
0 (12. 28) 
定理 5 (基于 本 体 的 变换 规则 链 ) 在 本 体 概念 树 中 , 叶 结 点 中 的 变换 T 与 各 级 上 层 结 
点 中 的 同类 变换 T; 之 间 形 成 了 变换 规则 链 , 即 : 
To Ti— Toe— "~— Tio (12. 29) 
证 明 : 由 定理 3 可 知 ,本 体 概念 树 的 上 下 两 层 的 同类 变换 都 存在 蕴含 关系 (变换 规则 知 
识 )。 由 本 体 概念 树叶 结 点 开始 , 逐 层 向 上 到 本 体 概念 树 的 根 结 点 ,将 同类 变换 连接 起 来 ,就 
形成 公式 (12. 29) 的 变换 规则 链 。 


12.1.4.3 ”多维 层次 数据 中 原因 分 析 的 变换 规则 链 获 取 实 例 


在 我 国航 空 公司 数据 仓库 中 ,对 发 现 的 问题 进行 原因 分 析 , 从 中 获取 变换 规则 链 。 数 据 
仓库 中 的 多 维 数据 中 含 层次 粒度 的 大 量 数据 ,对 发 现 的 问题 进行 原因 分 析 主 要 是 进行 多 维 
数据 的 钻 取 操作 。 在 每 一 次 钻 取 中 进行 一 次 变换 ,获得 出 现 问题 原因 的 深层 数据 。 数 据 仓 
库 中 的 多 维 层 次 数据 集合 是 符合 本 体 概 念 树 的 层次 关系 。 

我 国航 空 公司 的 数据 仓库 的 多 维 分 析 中 发 现 了 * 北 京 到 西南 地 区 总 周转 量 相对 去 年 出 
现 负增长 ”的 问题 ,该 问题 的 本 体 概 念 树 如 图 12. 2 所 示 。 


西南 地 区 航空 总 周转 量 
客运 总 周转 量 货运 总 周转 量 
7 八 
总 周转 量 总 周转 量 


150 座 机 200~300 座 机 
总 周转 量 ”总 周转 量 


图 12.2 西南 地 区 航空 总 周转 量 的 本 体 概 念 树 


该 问题 在 本 体 树 的 根 结 点 航空 总 周转 量 上 的 减 变换 表示 为 
Tw 南 总 量 ( 今 年 总 周转 量 一 去 年 总 周转 量 ) 一 一 19.9( 负 增长 ) 
通过 下 钻 到 本 体 树 下 层 ,空运 总 周转 量 结 点 上 的 减 变换 为 
Tw 南 运 (今年 客运 总 周转 量 一 去 年 客运 总 周转 量 ) = 一 19. 4( 负 增长 ) 
再 下 钻 到 昆明 客运 总 周转 量 结 点 上 的 减 变换 为 
TR 曙 安 去 (今年 总 周转 量 一 去 年 总 周转 量 ) = 一 16. 5( 负 增长 ) 
再 下 钻 到 昆明 座机 为 150 座 级 与 200 一 300 座 级 机 型 的 总 周转 量 两 个 结 点 上 的 减 变换 
分 别 为 : 
Tisok 机 (今年 总 周转 量 一 去 年 总 周转 量 ) = 一 6. 83( 负 增长 ) 
Tzoo~saook 机 (今年 总 周转 量 一 去 年 占用 转 量 ) 二 一 8. 9( 负 增长 ) 
根据 定理 5, 可 得 到 变换 规则 链 为 
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本 so 座机 八 了 200~300 座 机 > 了 昆明 客运 > 了 西南 客运 > 了 西南 总 量 (12. 30) 

该 变换 规则 链 说 明 : 出 现 西南 地 区 总 周转 量 相对 去 年 出 现 较 大 负增长 ,原因 之 一 主要 
是 昆明 地 区 150 座机 和 200 一 300 座机 型 ,相对 去 年 出 现 较 大 负增长 造成 的 。 而 该 变换 规则 
链 的 获得 是 从 问题 结论 的 减 变换 ,(Tm 疡 & 呈 ) 出 现 负 增长 ,通过 多 维 数据 钻 取 ,逆向 找 它 的 前 
提 减 变换 ,再 向 下 钻 取 ,一 直到 最 底层 ( 叶 结 点 ) 中 的 减 变换 , 即 (Tisos 和 及 Tzoo~sook 和 ) 出 现 较 
大 的 负增长 ,该 叶 结 点 的 减 变换 才 是 本 体 根 结 点 问题 的 根本 原因 。 

在 向 下 钻 取 过 程 中 ,有 时 也 能 发 现 新 间 题 ,如 在 搜索 货运 总 周转 量 时 ,发 现 东 南 地 区 出 
现 了 一 个 大 负增长 ,这 是 除 西南 地 区 出 现 负 增长 外 新 发 现 的 问题 ,可 以 在 寻找 西南 地 区 航空 
总 周转 量 的 根本 原因 之 后 ,再 去 寻找 东南 地 区 出 现货 运 总 周转 量 出 现 负 增长 的 原因 。 

除了 寻找 负增长 以 外 ,还 可 以 寻找 正 增长 的 原因 , 即 从 正 、 负 两 个 方面 寻找 问题 产生 的 
原因 ,这 样 可 以 得 到 更 大 的 决策 支持 。 

寻找 问题 原因 让 计算 机 自动 完成 ,必须 建立 多 维 层次 数据 的 本 体 概 念 树 ,并 在 树 中 进行 
深度 优先 搜索 ,来 发 现 问 题 并 找到 所 有 原因 。 


12.1.4.3 小 结 


数据 挖掘 是 从 数据 中 挖掘 知识 ,变换 规则 的 知识 挖掘 是 在 规则 知识 的 基础 上 挖掘 变换 
规则 知识 。 规 则 知识 是 静态 的 ,而 变换 规则 是 变化 的 知识 。 变 换 规则 定理 帮助 我 们 从 规则 
知识 及 相关 的 变换 中 获取 变换 规则 知识 。 基 于 本 体 的 变换 规则 链 定理 帮助 我 们 在 数据 仓库 
中 多 维 层 次 数据 中 获取 变换 规则 链 。 

目前 ,对 数据 仓库 的 问题 的 分 析 基 本 上 是 在 人 的 指导 下 ,对 多 维 层次 数据 进行 钻 取 操 
作 ,找到 问题 发 生 的 原因 。 若 在 多 维 层次 数据 中 建立 本 体 概念 树 ,就 可 以 让 计算 机 沿 着 本 体 
概念 树 进行 深度 优先 搜索 , 既 可 以 发 现 问题 ,又 能 自动 找到 各 问题 的 所 有 原因 。 这 项 工作 是 
很 有 意义 的 。 
12.1.5 适应 变化 环境 的 变换 规则 元 知识 


元 知识 是 知识 的 知识 ,是 对 一 般 知 识 的 描述 概括、 处理、 使 用 的 知识 。 我 们 在 此 提出 用 
变换 规则 作为 元 知识 的 一 种 新 表示 形式 。 变 换 规则 是 以 变换 为 基础 ,是 变换 的 产生 式 , 它 具 
有 变化 的 特点 ,适应 变化 的 环境 。 这 种 新 的 元 知识 表示 称 为 变换 规则 元 知识 。 

12.1.5.1 神经 网 络 的 变换 规则 元 知识 

神经 网 络 模型 是 将 人 脑 神经 元 组 织 结构 用 数学 模型 进行 形式 化 表示 。 它 学 会 实际 样本 
需要 利用 两 个 原理 性 的 计算 公式 : 神经 网 络 模型 的 运行 机 制 : 由 输入 结 点 值 ,经 过 MP 
模型 计算 公式 ,计算 出 输出 结 点 的 值 ; @ 利 用 输出 结 点 值 的 误差 ,修正 网 络 权 值 和 阔 值 的 计 
算 公 式 ( 在 本 书 9. 3. 2 节 中 已 说 明 )。 此 处 利用 变换 规则 作为 元 知识 的 表示 形式 进行 神经 网 
络 计算 的 概括 。 


1. 建立 判别 函数 


给 定 一 个 小 数 。, 利 用 误差 函数 
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6: = 2) | Oi—# | 
其 中 局 是 给 定 样本 i 的 输出 结 点 y; 的 实际 值 ,O; 是 输出 结 点 y; 的 计算 输出 值 。 
建立 判别 函数 值 为 : K; 二 e 一 6;，K; 二 0 表示 神经 网 络 未 学 会 样本 ,K; 宇 0 表示 神经 网 
络 学 会 样本 。 
2. 确定 解决 问题 的 变换 
解决 该 问题 需要 引入 5 个 变换 ,分 别 是 : 
(1) 输入 结 点 到 输出 结 点 的 变换 To 
利用 MP 模型 ,将 输入 结 点 值 : IT 一 (zi,zz,…,z), 按 神经 网 络 公式 计算 ,得 出 输出 结 
点 值 : O0= (0 ，O:，…，O,) ,其 变换 为 
Ti =0 
该 变换 的 计算 公式 为 
O = f(Dwsri—0) 
(2) 输出 结 点 的 减 变换 T- 
将 样本 输出 结 点 的 计算 值 与 实际 值 进行 相 减 ,得 到 误差 , 即 : 
T (9) = 2 1o0—#|=6 
(3) 网 络 权 值 的 变换 T,: 
T (wh ) = wh 
该 变换 的 计算 公式 为 
wt? 一 w 信 十 DOT 
(4) 阅 值 的 变换 Te: 
Tb) = pi 
该 变换 的 计算 公式 为 
扩 ” 一 扩 十 达 ) 
(5) 判别 函数 值 的 变换 TT : 
TK(Ki) = Kan 


3. 神经 网 络 学 会 样本 的 变换 规则 元 知识 表示 为 
ToAT_-ATwATo— Tx (12..31) 


该 变换 规则 表示 ,经 过 4 个 变换 Tio、T- 、T,、T 将 引起 判别 函数 值 的 变换 Te ,使 判别 
函数 的 值 增加 。 该 变换 规则 元 知识 高 度 概括 了 是 神经 网 络 学 会 样本 的 关键 和 解决 过 程 。 


4. 算法 
(1) 首先 要 给 定神 经 网 络 上 的 网 络 初 始 权 值 和 阅 值 (随机 数 ), 即 wi 二 w? ,0; 二 04? 。 


(2) 反复 进行 变换 规则 知识 的 计算 ,直到 判别 函数 ;三 0 为 止 。 
(3) 输出 网 络 权 值 的 结果 : ww 二 wy ,97 二 901”。 
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12.1.5.2 知识 发 现 的 变换 规则 元 知识 


在 知识 发 现 中 ,属性 约 简 和 数据 挖掘 是 两 个 重要 步骤 ,这 一 节 利用 粗糙 集 理论 ,用 变换 
规则 元 知识 来 高 度 概括 这 两 个 步骤 的 本 质 。 


1. 属性 约 简 的 变换 规则 元 知识 


属性 约 简 问题 是 在 数据 库 中 保持 分 类 效果 不 变 的 情况 下 ,删除 多 余 的 属性 。 它 的 基础 
理论 主要 是 粗糙 集 理 论 和 信息 论 。 按 粗糙 集 理论 ,需要 对 数据 库 中 的 每 个 条 件 属性 计算 其 
重要 度 SGF ,为 此 引入 计算 重要 度 算 子 Asos 。 对 条 件 属 性 集 C 中 的 任 一 属性 c; 相 对 决策 属 
性 了 ,计算 其 重要 度 Ascr (ci) 。 

Ascr (ci) 算 子 计算 过 程 

(1) 计算 条 件 属 性 集 (C 一 {c)) 的 等 价 集 ; 

(2) 计算 决策 属性 的 DD 等 价 集 ; 

(3) 计算 正 域 Pos(C 一 {ci},D); 

(4) 计算 依赖 度 Y(C 一 {ci} ,D); 

(5) 计算 C; 的 重要 度 SGF(C 一 {c;} ,D)。 

在 粗糙 集 属性 约 简 中 , 若 SGF(C 一 {ci},D)==0, 即 Ascr (ci) 二 0。 表 示 属 性 c; 关 于 DD 是 
可 省 的 , 即 可 以 对 属性 c; 进 行 约 简 , 用 下 式 表示 属性 约 简 变换 .: 

TO =C = (6) 
该 约 简 变 换 Tu 是 在 算 子 Ascr (ci) 计 算出 Asor (ci) 二 0 时 才 进 行 的 变换 。 
算 子 Ascr 与 约 简 变换 Twa 之 间 的 因果 关系 可 以 表示 为 变换 规则 元 知识 : 
Aser (ci) = 0 Tia CO) = (C— {0c}) (12. 32) 

该 元 知识 表示 为 : 若 算 子 Aser 对 ci 属性 计算 出 重要 度 SGF(C 一 {ci),D) 为 0 时 ,进行 
对 属性 c; 的 约 简 变换 。 

该 变换 规则 元 知识 高 度 概括 了 属性 约 简 的 原理 和 本 质 。 


2. 数据 挖掘 的 变换 规则 元 知识 


数据 挖掘 是 从 大 量 数据 中 获取 知识 ,这 些 知识 实质 上 是 这 些 数据 的 高 度 浓缩 , 仍 保留 了 
数据 的 本 质 。 这 里 讨论 基于 粗糙 集 理 论 的 数据 挖掘 方法 的 元 知识 。 

该 方法 是 通过 条 件 属性 集 E; 与 决策 属性 集 友之 间 的 上 下 近似 关系 来 获取 知识 。 为 此 
要 建立 一 个 求解 两 集合 E; 和 YY; 之 间 上 下 近似 关系 的 算 子 A wpaow 。 

(1) Au (E;,Y;) 算 子 的 计算 过 程 

@ 求 条 件 属性 集 C 中 的 等 价 类 EE;; 

@ 求 结 论 属性 集 DD 中 的 等 价 类 YY;; 

@ 求 E; 和 Yj; 之 间 的 交 , 分 别 有 三 种 情况 : 

DENY,=E; ©@ENY,zE(zL); OENMNY,=Y 

该 算 子 对 前 两 种 情况 能 生成 两 类 规则 知识 , 它 实际 上 是 从 数据 库 D; 中 获取 规则 知识 

的 数据 挖掘 变换 ,表示 为 
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Tou (Da) = (E; > Y,) 
(2) 基于 粗糙 集 的 数据 挖掘 方法 的 变换 规则 元 知识 
数据 挖掘 的 变换 Tow 是 算 子 Aupaow(E;,Y;) 的 计算 结果 引起 的 ,从 中 可 得 到 两 条 变换 规 
则 元 知识 : 


(Avupaow (Ei,Y;) = E;) —> (Tou (Dsa) = (E; — Y,)) (12. 33) 
Aaow (EisY;) A Ei) MA ( Avaow (EisY;) FG) > To Du) = ((E; > Y¥,),Cf ) 
(12. 34) 


其 中 可 信和 度 Cf 为 : Cf=|E 几 NY;|/|E;| 
这 两 条 变换 规则 元 知识 高 度 概括 了 粗糙 集 获取 知识 的 原理 和 本 质 。 


12.1.5.3 专家 系统 的 变换 规则 元 知识 


专家 系统 中 的 元 知识 主要 用 来 对 专家 系统 运行 的 控制 ,用 变换 规则 知识 来 表示 控制 专 
家 系统 运行 的 元 知识 是 很 合适 的 。 专 家 系统 一 般 采 用 逆向 推理 , 它 运 行 控制 的 元 知识 主要 
包括 : 指定 目标 开始 推理 ;检查 当前 变量 是 否 处 于 推理 树 的 叶 结 点 ,若是 则 进行 提问 ;提问 
回答 符合 要 求 时 ,推理 进行 回 渤 ;提问 回答 不 符合 要 求 时 ,继续 提问 ;目标 求 出 值 后 ,停止 推 
理 或 转向 另 一 推理 树 的 目标 等 。 下 面 对 其 中 部 分 元 知识 利用 变换 规则 表示 形式 ,更 能 体现 
变化 的 特点 : 

(1) 叶 结 点 提问 处 理 : 当 推 理 过 程 中 发 现 当前 结 点 x 是 叶 结 点 ze 时 ,将 叶 结 点 变换 成 
给 定 叶 结 点 的 提问 句 , 元 知识 表示 为 

Compare(Czyzo) = yes > Tos (Xo) = (question(zxo) 一 “提问 句 ”) 

(2) 叶 结 点 用 户 回答 正确 处 理 : 当 用 户 回答 的 值 wCuser) 属 于 叶 结 点 取 值 v(xo) 的 范 硬 

时 ,推理 进行 回溯 ,即将 上 层 结 点 x 置换 叶 结 点 zu ,元 知识 表示 为 
Compare(v(user) ,v(x0)) = yes 一 Too(zo) = x 

(3) 叶 结 点 用 户 回答 不 正确 处 理 : 当 用 户 回答 的 值 vCuser) 不 属于 叶 结 点 取 值 v(xo) 的 

范围 时 , 则 继续 提问 ,元 知识 表示 为 
Compare(v(user) ,u(zo)) = no 一 Tes(zo) 一 (question(zo) 一 “提问 句 ”) 

(4) 单 推理 树 推 理 控制 : 当 目 标 结 点 G 通过 推理 求 出 值 ve 时 ,停止 推理 。 元 知识 表 

示 为 : 


Check(v(G) = ve) 一 Towp (x = G) = Ryop 
(5) 多 推理 树 推 理 控 制 : 当 一 个 推理 树 的 目标 结 点 G 通过 推理 求 出 给 定 值 vc 时 ,控制 
推理 机 从 该 推理 树 转 向 另 一 推理 树 i 的 目标 结 点 Gi;, 元 知识 表示 为 
Check(v(G) = ve ) > Tn(G) = G; 
用 变换 规则 知识 , 即 变换 产生 式 式 来 表示 专家 系统 中 的 元 知识 , 比 原来 采用 的 元 知识 表 
示 更 能 体现 变化 的 特点 ,也 便利 了 专家 系统 程序 ,容易 控制 专家 系统 有 效 运行 。 


12.1.5.4 结束语 


通过 以 上 研究 可 知 ,神经 网 络 、 知 识 发 现 都 是 一 个 过 程 .需要 经 过 若 个 步骤 来 完成 ,用 变 
换 规则 作为 元 知识 来 描述 , 既 适应 了 求解 过 程 的 变化 需求 ,又 起 到 了 把 定量 问题 进行 定性 化 
。263。 


描述 , 即 浓缩 了 具体 的 定量 计算 过 程 的 效果 。 在 专家 系统 中 的 元 知识 用 变换 规则 表示 ,更 突 
出 了 运行 专家 系统 的 控制 效果 。 

变换 规则 作为 元 知识 的 一 种 新 的 表示 形式 ,是 对 元 知识 的 扩充 , 既 能 有 效 地 把 握 问题 的 
本 质 ,又 能 有 效 地 起 到 指导 和 控制 系统 运行 的 效果 。 变 换 规则 作为 元 知识 的 表示 形式 ,能够 
适应 变化 的 环境 ,具有 广泛 的 应 用 前 景 。 


12.2 软件 进化 规律 的 知识 挖掘 


计算 机 虽然 是 非 生物 ,但 在 人 的 帮助 下 , 它 解决 问题 的 能 力 充分 体现 了 由 简单 到 复杂 、 
由 低级 到 高 级 这 种 进化 过 程 。 这 种 进化 过 程 的 结果 ,使 计算 机 逐渐 在 向 人 靠拢 ,逐步 在 代替 
人 的 智力 工作 。 找 出 计算 机 进化 的 规律 ,一 来 是 为 了 提升 人 们 利用 计算 机 解决 问题 的 能 力 ， 
二 来 是 为 了 促进 计算 机 的 进一步 进化 。 

计算 机 软件 的 进化 主要 经 历 了 : 数值 计算 的 进化 ; @ 计 算 机 语言 的 进化 ; @ 从 “数值 
计算 ”到 “数据 处 理 ” 再 到 “知识 推理 ”的 进化 等 。 


12.2.1 数值 计算 的 进化 
数值 计算 的 进化 体现 在 从 “算术 运算 ”到 “ 微 积分 运算 ”再 到 “ 解 方 程 "的 发 展 过 程 。 
1. 数值 计算 能 力 的 进化 


数值 计算 能 力 的 进化 概括 为 (说 明 :“ 一 ”表示 进化 ,“<-” 表 示 回 归 ): 
十 一 土 X 二 一 初等 函数 一 微 积分 运算 一 解 方程 

即 “ 十 ”运算 是 数值 运算 的 根本 。 

(1) 土 X 二 一 十 

@ 加 (十 ) 是 最 基本 运算 。 

@ 减 (一 ) 是 利用 减 数 的 补 数 ( 求 反 加 1) , 变 减 为 加 。 

@ 乘 (X) 是 把 乘 变 成 累加 ,如 5X3=5 十 5 十 5, 即 5 加 3 次 。 

@ 除 (二 ) 是 把 除 变 成 累 减 的 次 数 ,如 6 二 3 为 6 一 3 一 3==0, 减 了 2 次 , 即 商 为 2。 

(2) 初等 函数 一 士 X 二 

初等 函数 的 计算 不 是 利用 定义 ,而 是 利用 台 劳 级 数 公式 来 计算 的 , 即 变 成 (回归 到 ) 加 减 
乘除 运算 。 如 : 

@ 三 角 公 式 


@ 指数 公式 
(3) 微 积分 运算 一 士 X 二 


@ 微分 运算 (差分 化 ) 
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Pd li (r= fn) 变 成 ”f(x) 老 Ft) = 
即 导数 的 极限 运算 变 成 近似 的 差分 求 商 ,也 就 是 回 到 了 加 减 乘除 运算 。 
@ 积分 运算 ( 求 和 ) 

fro)ar = lim Df ar 变 成 [war ~ Spd ly 


即 积分 的 极限 运算 变 成 近似 的 求 和 ,也 回 到 了 加 减 乘除 运算 。 取 Ax 尽量 小 ,就 能 满足 
误差 精度 。 
@ 二 阶 导数 的 差分 方程 
d: f(x) d (42)~ JE 一 人 Fo 4 .C0 
dz: dr\ dz Az2 

一 阶 和 二 阶 导数 的 结 点 关系 如 图 12. 3 所 示 。 
高 阶 导数 处 理 方法 类 似 。 
@ 偏 微分 方程 的 差分 方程 

ak， OM un Wh O20 + 

9y ar Ay : Arz2 
说 明 : n 表示 yy 方向 的 增长 ,) 表示 z 方向 的 增长 。 偏 导数 结 点 关系 如 图 12. 4 所 示 。 


= No = 


7 四 J (x) 
y 
n+l 一- 一 -一 -一 一 一 一 1 
1 
| 
| 1 1 
1 1 1 
1 1 1 
x | | | 
i 7 
图 12.3 一 阶 和 二 阶 导 数 的 结 点 关系 图 12.4 偏 导数 结 点 关系 


(4) 解 方程 

方程 的 求解 有 两 种 方法 : 直接 求解 法 和 迭代 求解 法 。 

方程 的 直接 求解 

。 线 代数 方程 组 的 直接 求解 

线 代 数 方程 组 的 结构 形式 一 般 表示 (人 理解 的 方式 ) 为 
Qiixr Tazs amr = 0 


azlzl 十 azzzz 十 "十 aznTn 二 bz 


wi | vs = 


在 计算 机 中 ,方程 组 用 和 矩阵 (数组 ) 形 式 表示 为 
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da Un Ws b, 
说 明 : 计算 机 中 并 不 存在 方程 的 结构 形式 ,分 别 用 三 个 数组 表示 ,它们 可 以 存放 在 计算 
机 中 不 同 的 地 方 。 这 种 表示 把 运算 符 (X 十、 二 ) 都 隐藏 起 来 ,这 有 利于 同类 数据 集中 存储 ， 
运算 符 将 体现 在 指令 操作 中 , 即 计算 机 程序 把 数据 和 运算 符 分 开 了 ,这 是 计算 机 程序 的 重要 
解 方程 时 只 对 三 个 数组 进行 处 理 , 最 后 得 出 x; 值 。 
线 代数 方程 组 的 高 斯 主 元 素 消 去 法 (加 减 乘除 ) : 系数 矩阵 消 元 成 单位 矩阵 


Ll 0 ON [zoY {6 
0 1 % 0||z||b 
0 0 » 1 zs) \0. 


。 偏 微分 方程 边 值 问题 的 求解 

偏 微分 方程 边 值 问题 的 求解 一 般 是 在 一 个 区 域内 进行 ,区 域 中 的 点 是 未 知 数 , 区 域 边界 
点 是 已 知 数 。 例 如 汽轮机 转子 进行 热传导 偏 微 分 方程 ， 
的 计算 ,其 网 络 划分 如 图 12. 5 所 示 。 

偏 微分 方程 差分 化 后 ,经 过 整理 就 变 成 了 以 区 域 
中 的 点 为 未 知 数 ,区 域 边界 点 是 已 知 数 的 线 代数 方 
程 组 。 

偏 微分 方程 的 求解 就 变 成 了 线 代 数 方程 组 的 求 
解 , 即 回 到 了 加 减 乘除 的 运算 。 

。 微分 方程 数值 计算 的 价值 

传统 的 数学 分 析 解 方程 的 方法 是 通过 推演 得 到 解 
析 解 , 即 用 表达 式 形式 表示 的 解 。 求 方程 的 解析 解 只 能 解决 少数 的 较 简 单 的 和 典型 的 微分 
方程 的 求解 。 

微分 方程 的 数值 计算 方法 ,无 论 是 常 系数 还 是 变 系数 ,是 线性 还 是 非 线 性 ,都 能 得 到 解 
决 。 解 决 的 手段 是 对 微分 方程 差分 化 ,得 到 差分 方程 ,让 计算 机 来 解 差分 方程 (加 减 乘除 ) 得 
到 数值 解 。 

@ 方程 的 迭代 求解 

。 迄 代 法 的 思想 

将 方程 f(z) 二 0 变 成 zx 一 p(z) 

建立 迭代 法 方程 ; 


图 12.5 汽轮机 转子 的 网 络 划 分 


Tn = PCZn) 7 一 12, ,co 
初 值 zi 任意 选 定 , 经 过 无 限 次 迭代 后 ,使 
Ln = Se 
这 时 ,zx 就 是 原 方程 的 解 : 
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f(x)=0 
典型 的 是 牛顿 迭代 公式 是 : 


四 
f(z) 


牛顿 迭代 公式 中 的 导数 是 切线 ,经 过 多 次 迭代 ,很 快 就 能 求 得 方程 的 解 x, 。 
。 和 迭 代 方 法 适合 于 计算 机 求解 
用 和 迭代 方法 求解 方程 使 解 方程 更 简单 和 容易 ,省 去 了 烦琐 的 步骤 ,思路 简单 。 迭 代 方 法 
很 适合 让 计算 机 来 完成 。 因 为 迭代 次 数 一 多 ,人 来 做 就 无 法 实现 ,而 计算 机 来 做 就 不 成 问 
题 。 计 算 机 运算 速度 很 快 ,适合 重复 性 的 计算 。 
计算 机 为 迭代 方法 求解 方程 开辟 了 新 路 。 
。 和 迭代 公式 的 讨论 
迭代 公式 的 计算 结果 有 两 种 可 能 : 收敛 ( 求 得 结果 ) 和 发 散 。 
当 发 散 时 需要 构造 反 函 数 , 才 能 使 迭代 收敛 , 即 
T= (7) 
按 以 上 思路 ,我 们 可 以 先 将 原 方程 构造 迭代 公式 ,不行 时 就 构造 反 函 数 。 
。 和 迭代 法 的 典型 实例 
BP 神经 网 络 中 权 值 和 效 值 的 求解 就 是 采用 和 迭代 法 ,具体 公式 为 
Vi (十 1) = Ws(k) + Oz; 
0i(k+1) = 0(k) 十 11 
例如 : 异 或 问题 的 B-P 神经 网 络 如 图 12.6 所 示 。 


Tntl 一 Tn n= 1 ,2，……,co 


图 12.6 异 或 问题 的 BP 神经 网 络 


计算 机 运行 结果 ;迭代 次 数 : 16745 次 ;总 误差 : 0. 05 

隐 层 网 络 权 值 和 浆 值 ; 

wu 一 5.24， wis 一 5.23， wa 一 6.68， rz = 6.64, 0 =8.01, ,= 2.98 

输出 层 网 络 权 值 和 浆 值 : 

3 10,T,=10, $= 4.79 

(5) 数值 计算 的 误差 问题 

数值 计算 的 误差 积累 会 引起 结果 的 错误 。 例 如 ,应 该 是 正 数 的 ,但 计算 出 来 的 是 负数 。 
为 了 使 误差 积累 不 产生 错误 的 结果 ,需要 : 

@ 原始 数据 的 有 效 位 数 要 比 结果 数据 有 效 位 数 多 出 1 一 2 位 。 
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@ 使 用 不 很 合理 的 公式 时 ,要 检查 可 能 出 现 错误 的 地 方 ,增加 判别 公式 , 防 制 错 误 
发 生 。 
2. 二 进 制 计 算 到 二 值 数据 表示 


(1) 二 进 制 数 从 计算 到 表示 

二 进 制 数 开始 在 计算 机 中 是 用 于 计算 (代替 十 进 制 计算 ) ,后 来 发 展 成 为 表示 形式 (如 汉 
字 、 图 像 . 声 音 等 ) 。 概 括 为 ， 

十 进 制 计算 一 二 进 制 计 算 一 二 值 数据 表示 一 汉字 编码 十 字形 的 二 值 数据 表示 (点 阵 ) 一 
图 像 点 阵 表示 

从 二 进 制 数值 计算 到 用 二 值 数据 表示 汉字 或 多 媒体 ,是 一 次 重大 的 观念 转变 。 它 使 汉 
字 或 多 媒体 能 够 存 人 计算 机 中 ,也 就 可 以 在 计算 机 中 进行 处 理 。 这 使 计算 机 扩大 了 它 的 处 
理 范 围 , 使 计算 机 进入 了 多 媒体 时 代 ,也 标志 了 计算 机 向 前 迈进 了 一 大 步 。 

(2) 十 进 制 到 二 进 制 的 转换 

计算 机 只 能 采用 二 进 制 。 在 使 用 计算 机 进行 数值 计算 时 ,虽然 输入 的 数 是 十 进 制 数 ,但 
在 计算 机 内 有 一 个 子 程序 (类 似 于 初等 函数 子 程序 ) 会 把 数据 转换 成 二 进 制 。 

(3) 汉字 表示 

@ 英文 字母 数字、 标点 符号 等 用 ASCII 码 值 表示 

如 A 的 码 值 65, 数 字 0 的 码 值 48。 

@ 汉字 编码 

一 个 汉字 用 4 位 十 进 制 数 字 编 码 , 前 两 位 是 区 号 ,后 两 位 是 位 号 。 一 个 汉字 在 计算 机 中 
的 内 码 占 两 个 字 节 ,第 一 个 字 节 用 于 区 号 ,第 二 个 字 节 用 于 位 号 。 

汉字 的 形状 是 方块 体 的 多 笔画 的 字 , 采 用 了 二 值 数据 的 点 阵 形式 来 表示 。 这 就 使 计算 
机 能 存储 汉字 ,并 能 处 理 汉字 。 这 克服 了 计算 机 只 能 处 理 拼音 文字 的 狭隘 的 范围 ,使 汉字 也 
能 用 计算 机 这 个 现代 工具 来 处 理 。 这 既 促 进 了 汉字 文化 的 发 展 ,又 使 计算 机 的 处 理 能 力 上 
升 了 一 步 。 

(4) 图 像 的 表示 

图 像 看 成 点 (像素 ) 的 集合 ,每 个 像素 的 颜色 用 三 个 字 节 (24 位 ) 表 示 。 任 何 颜色 由 红 、 
绿 、 蓝 三 色 混合 而 成 ,三 色 各 占 一 个 字 节 ,一 个 字 节 中 各 位 的 0 或 1( 二 值 数 据 ) 的 不 同 来 表 
示 , 构 成 了 不 同 的 颜色 浓度 。 

一 幅 图 像 在 计算 机 中 表示 为 一 个 长 度 惊 人 的 0、1( 二 值 数据 ) 串 。 

图 像 用 点 阵 数 据 表示 ,使 计算 机 就 能 存储 图 像 ,并 能 处 理 图 像 。 从 而 使 计算 机 进入 了 多 
媒体 时 代 。 

(5) 视频 的 表示 

视频 是 连续 播放 一 系列 图 像 。 每 幅 图 像 称 为 帧 。 每 秒 播 出 帧 的 数目 在 24 一 30 幅 图 像 
时 ,就 是 像 电 影 一 样 的 视频 。 

由 于 视频 数据 量 太 大 ,一 般 采 取 MPEG 压缩 技术 . 相 邻 帧 只 记录 前 面 帧 的 变化 部 分 。 
不 记录 前 面 帧 的 重复 部 分 ,这 样 就 可 以 节省 大 量 的 存储 空间 。 
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12.2.2 计算 机 程序 的 进化 
计算 机 程序 的 进化 可 以 概括 为 : 
二 进 制 程序 一 汇编 程序 一 高 级 语言 程序 一 程序 生成 
1. 二 进 制 程序 
(1) 机 器 语言 (二 进 制 ) 程序 
二 进 制 程序 是 最 原始 的 计算 机 运行 程序 ,由 一 串 机 器 指令 组 成 。 


机 器 指令 含 : 操作 码 和 地 址 码 。 
例如 : 操作 码 : 02 加 法 地 址 码 : 1001 x 


05 取 数 1002 y 
06 送 数 1003 空 
完成 x 十 y 的 计算 程序 (八进制 ) 为 : 
05 1001 取 x 
02 1002 加 y 
06 1003 送 结果 
机 器 语言 程序 有 两 个 重要 特点 : 


@ 在 地 址 码 中 只 放 数 据 ,不 放 运 算 符 。 运 算 符 都 在 操作 码 中 , 即 运算 和 数据 是 分 开 的 。 

G@) 操作 码 中 的 指令 是 对 变量 的 地 址 进行 操作 ,而 不 是 直接 对 变量 的 操作 。 这 是 一 种 间 
接 操作 ,这 适合 机 器 的 运算 。 

因为 在 对 变量 进行 运算 之 前 , 先 要 对 变量 进行 存储 , 即 把 变量 放 入 某 个 地 址 单元 中 ,要 
进行 运算 就 必须 从 地 址 单元 中 取出 变量 ,再 进行 计算 ,指令 对 地 址 进行 操作 ,就 是 完成 这 些 
动作 ,这 就 形成 了 间接 操作 。 

间接 操作 的 好 处 在 于 : 

@ 对 于 不 同 数据 的 相同 操作 ,只 需 把 不 同 数据 放 和 人 相同 地 址 单元 中 ,程序 不 用 变化 。 
间接 操作 为 程序 的 通用 性 带 来 了 好 处 。 它 有 别 于 人 对 变量 的 直接 操作 。 人 操作 时 ,不 需要 
把 数据 放 入 某 个 地 址 单元 这 个 动作 。 

@ 编程 序 时 ,不 要 求 先 把 数据 都 准备 好 后 再 编程 序 ,只 需 把 数据 的 存放 地 址 都 分 配 好 
后 就 可 以 编程 序 。 

我 国 20 世纪 60 年 代 研 制 的 第 一 台 计 算 机 (电子 管 )103 型 ( 仿 苏 联 的 M3), 以 及 后 来 的 
104、109 型 等 多 台 计 算 机 ,提供 的 都 是 机 器 语言 (二 进 制 ) 。 

(2) 汇编 程序 

汇编 程序 是 将 二 进 制 (或 八进制 .十 六 进 制 ) 程 序 中 的 数字 用 字母 符号 ( 助 记 符 ) 代 替 。 
使 用 汇编 程序 简化 了 繁琐 的 数字 。 

上 例 程序 的 汇编 程序 为 : 

I x 取 x 

MD yy 加 y 

SIA 工 送 结果 
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汇编 程序 便利 人 书写 ,虽然 程序 中 书写 是 变量 x、y, 但 是 ,汇编 程序 运行 时 还 是 要 返回 
到 二 进 制 程序 。 程 序 中 的 变量 仍然 要 用 它 的 地 址 单元 来 表示 。 这 时 ,变量 的 地 址 单元 是 由 
机 器 的 解释 程序 来 分 配 的 。 它 不 同 于 人 编制 的 二 进 制程 序 , 变 量 的 地 址 单元 是 程序 员 分 
配 的 。 

汇编 程序 通过 解释 程序 返回 到 二 进 制程 序 。 解 释 程序 很 简单 ,只 需要 二 张 对 照 表 即 可 ， 
一 个 是 指令 操作 码 的 二 进 制 对 照 表 , 另 一 个 是 数据 地 址 的 二 进 制 对 照 表 。 

(3) 高 级 语言 程序 

高 级 语言 程序 是 用 接近 自然 语言 和 数学 语言 编写 的 程序 。 接 近 人 们 的 习惯 ,便利 非 专 
业 人 员 编 写 。 高 级 语言 程序 种 类 很 多 .完成 数值 计算 的 高 级 语言 有 C、Pascal、ADA 等 ;完成 
数据 库 操作 的 高 级 语言 有 FoxPro、Oracle、Sybase 等 ;完成 知识 推理 的 高 级 语言 
PROLOC、LISP 等 。 高 级 语言 程序 需要 先 对 所 有 的 数据 元 素 ( 变 量 、 数 组 等 ) 都 要 指定 清 
楚 ,便利 编译 程序 分 配 地 址 单元 , 即 高 级 语言 程序 仍然 是 对 数据 的 间接 操作 。 

高 级 语言 把 程序 的 运算 能 力 提高 了 一 大 步 , 即 高 级 语言 的 结构 化 程序 设计 中 ,把 程序 结 
构 归 纳 为 三 种 基本 结构 的 组 合 , 这 三 种 基本 结构 是 顺序 选择、 循环。 任何 复杂 的 程序 都 是 
这 三 个 基本 结构 的 代 套 组 合 。 这 种 程序 结构 保证 了 程序 的 正确 性 。 这 在 “程序 设计 方法 学 ” 
中 给 出 了 正确 性 的 证 明 。 它 克服 了 20 世纪 60 年 代 的 软件 危机 。 

在 机 器 语言 的 指令 集中 ,有 比较 和 转移 (Go To) 指 令 , 也 能 完成 选择 和 循环 的 运算 ,但 
当时 程序 员 有 一 种 追求 编写 精巧 程序 的 愿望 ,于 是 大 量 使 用 Go To 语句 。 对 于 一 个 小 程序 
是 一 个 精巧 程序 时 , 它 是 一 个 艺术 品 ;对 于 一 个 大 程序 ,在 大 量 使 用 Go To 语句 以 后 ,发 生 
错误 的 概率 将 大 大 增加 ,这 就 成 了 灾难 ,形成 了 软件 危机 。 当 时 ,不 少 人 提出 取消 Go To 语 
句 。 最 后 ,由 于 提出 了 结构 化 程序 设计 思想 才 解 决 了 这 场 软 件 危 机 ,使 大 型 程序 的 正确 性 得 
到 了 极 大 的 提高 。 

高 级 语言 的 效果 体现 在 : 

a 高 级 语言 便利 了 程序 的 编写 ; 

@ 高 级 语言 的 功能 更 强 了 (很 多 标准 的 程序 段 通过 连接 程序 直接 嵌入 到 用 户 程序 中 )， 
极 大 地 提高 了 解决 问题 的 能 力 和 扩充 了 计算 机 的 应 用 范围 ; 

@@ 高 级 语言 的 应 用 促进 了 新 语言 的 出 现 , 面 向 对 象 语言 ,数据库 语言 、 网 络 编程 语言 以 
及 第 四 代 语 言 (程序 生成 ) 等 陆续 出 现 。 


2. 高 级 语言 程序 的 编译 


(1) 编译 程序 的 思想 

高 级 语言 程序 同样 要 返回 到 二 进 制程 序 ,这 就 是 编译 程序 。 

编译 程序 包括 词法 分 析 .语法 分 析 、 代 码 生成 。 它 的 技术 原理 相同 于 人 工 智 能 中 的 专家 
系统 。 即 利用 文法 (知识 ) 对 程序 中 的 语句 进行 归 约 ( 反 向 推理 ) 或 推导 ( 正 向 推理 ), 既 要 检 
查 语句 是 否 合 符 文法 ,又 要 将 语句 编译 成 中 间 语 言 或 机 器 语言 。 

计算 机 程序 的 本 质 还 是 二 进 制程 序 。 

转换 过 程 如 下 : 

源 程序 一 (编译 程序 )~ 二 进 制 程序 
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(2) 表达 式 的 编译 

表达 式 的 编译 是 编译 程序 中 最 复杂 的 部 分 。 人 进行 表达 式 计算 时 要 按照 规定 进行 : 先 
乘除 ,后 加 减 , 括 号 优先 。 计 算 机 对 表达 式 的 计算 ,不 能 按 此 规定 进行 ,因为 这 不 便于 编制 程 

表达 式 的 编译 采用 了 波兰 逻辑 学 家 J. Lukasiewicz 1951 年 提出 的 逻辑 运算 无 括号 的 记 
法 : 前 级 表达 式 一 一 波兰 式 ; 名 后 级 表 达 式 一 一 逆 波 兰 式 。 

也 就 是 将 人 习惯 的 中 绥 表 达 式 变 成 后 绥 表 达 的 逆 波 兰 式 , 逆 波 兰 式 把 表达 式 中 的 括号 去 
掉 了 ,把 加 减 乘 除 的 优先 级 别 变 成 了 前 后 的 顺序 关系 ,这 就 适合 计算 机 的 顺序 处 理 。 例 如 

Ux 对 P/dq>UV< pq/+ 

ax (b+C) 一 abC+ * 

在 “编译 程序 书 中 ,将 中 组 表达 式 变 成 后 缀 表达 的 逆 波 兰 式 , 占 了 很 大 的 篇 幅 。 一 般 利 
用 一 个 符号 栈 或 者 采用 递归 子 程序 的 方法 来 完成 这 种 转变 。 


12.2.3 数据 存储 的 进化 


数据 存储 的 进化 可 以 概括 为 : 
变量 一 数组 一 线性 表 一 堆栈 和 队列 一 数据 库 一 数据 仓库 


1. 数据 存储 的 进化 过 程 


(1) 变量 一 线性 表 

Q@ 变量 : 计算 公式 中 的 基本 元 素 , 分 配 一 个 存储 地 址 。 

@ 数组 : 相同 类 型 的 一 维 、 二 维 数据 集合 ,存储 地 址 是 连续 的 。 

@ 线性 表 : 不 同类 型 数据 的 集中 存储 。 如 学 生 表 中 含 姓名 、 性 别 、 年 龄 等 不 同类 型 的 
数据 集合 。 

(2) 堆栈 和 队列 

它 是 指 用 于 特殊 运算 而 暂时 存放 的 数组 或 线性 表 。 

Q 堆栈 。 对 进 栈 的 数据 采用 后 进 先 出 的 处 理 方式 ,如 对 急诊 病人 的 处 理 ; 后 来 的 先 看 病 。 

@ 队列 。 对 进 队 的 数据 采用 先进 先 出 的 处 理 方式 ,如 对 一 般 病 人 的 处 理 : 按 排队 先后 
顺序 看 病 。 

(3) 数据 库 

通过 数据 库 管理 系统 管理 的 数据 文件 。 

数据 库 管 理 系统 (数据 库 语 言 ) 的 主要 功能 为 : 

@ 建立 数据 库 。 描 述 数据 库 的 结构 并 输入 数据 。 

@ 管理 数据 库 。a 控制 数据 库 系统 的 运行 ; b 进行 数据 的 检索 、 插 入 .删除 和 修改 的 
操作 。 

@ 维护 数据 库 。a 修改 .更 新 数据 库 ; b 恢复 故障 的 数据 库 。 

@ 数据 通信 。 完 成 数据 的 传输 。 

@ 数据 安全 。 设 置 一 些 限制 ,保证 数据 的 安全 。 
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数据 库存 储 结构 不 同 于 数组 ,数据 库 的 存储 结构 由 两 大 部 分 组 成 : 文件 头 部 分 和 记录 
正文 部 分 。 

文件 头 部 分 包括 数据 库 记录 信息 和 各 字段 的 说 明 。 数 据 库 记录 信息 是 由 年 月 日 .记录 数 、 
文件 头 长 度 、 记 录 长 度 等 信息 组 成 。0DH 和 00H 两 字 节 为 文件 头 的 尾 ,如 图 12.7 所 示 。 


数据 库 记 录 信 息 (32 字 节 ) 


字段 说 明 (32 字 节 ) 


oDH 00H 
记录 正文 部 分 


图 12.7 数据 库 的 存储 结构 
记录 正文 部 分 的 存储 结构 如 图 12. 8 所 示 。 


记录 1 | 删除 标志 (1B) | 第 1 字段 内 容 | 第 N 字段 内 容 
记录 2 | 
记录 3 | ee 


图 12.8 记录 正文 部 分 的 存储 结构 


每 个 记录 增加 一 个 删除 标志 在 于 删除 该 记录 时 ,只 做 删除 标志 ,并 没有 真正 抹 去 该 记 
录 。 这 样 使 记录 的 索引 不 发 生变 化 ,不 影响 整个 数据 库 的 其 他 操作 。 增 加 删除 标志 ,虽然 多 
了 和 宛 余 ,但 便利 了 数据 库 的 操作 。 

数据 库 的 数据 存储 量 大 小 不 一 ,一 般 在 100MB 左右 。 

(4) 数据 仓库 

数据 仓库 是 大 量 数据 库 ( 二 维 ) 集 成 为 多 维 数据 的 集合 ,如 图 12.9 所 示 。 


二 维 数据 
图 12.9 由 数据 库 形成 数据 仓库 的 示意 图 
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数据 仓库 中 的 数据 分 为 多 个 层次 ,包括 当前 基本 数据 层 、 历 史 数据 层 、 轻 度 综合 数据 层 、 
高 度 综合 数据 层 、 元 数据 。 数 据 仓库 结构 如 图 12. 10 所 示 。 


高 度 综合 数据 


部 


轻 度 综合 数据 层 


本 | 


当前 基本 数据 层 


历史 数据 层 
图 12.10 数据 仓库 中 的 数据 层次 结构 


由 于 数据 仓库 的 数据 是 多 维 数据 ,数据 仓库 的 存储 结构 采用 了 “ 星 型 模型 "。 星 型 模型 
是 由 “事实 表 ”( 大 表 ) 以 及 多 个 “ 维 表 ”( 小 表 ) 所 组 成 的 。“ 事 实 表 ” 中 存放 大 量 关 于 企业 的 事 
实数 据 。“ 维 表 ”( 相 当 于 多 维 坐 标 系 中 的 坐标 维 的 数据 ) 中 存放 坐标 维 的 描述 性 数据 , 维 表 
是 围绕 事实 表 建 立 的 较 小 的 表 。 每 个 表 均 采用 关系 数据 库 的 存储 结构 形式 。 

一 个 星 型 模型 数据 的 实例 如 图 12. 11 所 示 。 


订货 表 产品 表 


事实 表 
浇 By 一 人 


单 产品 名 称 
于 加 | 产品 目录 
客户 号 单价 
产品 号 


客户 表 
客户 号 | 慰 识 
客户 名 称 地 区 名 称 
客户 地 址 数量 日 期 表 
总 价 


销售 员 


销售 员 号 
销售 员 姓 名 
城市 


图 12.11 星 型 模型 数据 的 实例 


数据 仓库 的 数据 存储 量 一 般 在 10GB 左右 , 它 相当 于 数据 库 的 数据 存储 量 的 100 倍 。 
大 型 数据 仓库 的 数据 存储 量 达 到 了 TB(1000GB) 级 。 这 种 数量 级 的 数据 存储 ,只 有 在 计算 
机 发 展 到 今天 的 水 平 ,存储 量 的 飞速 剧 增 才 能 实现 。 


2. 用 于 管理 的 数据 库 和 用 于 决策 的 数据 仓库 


(1) 用 于 管理 的 数据 库 
数据 库 一 般 只 存储 当前 的 现状 数据 ,用 于 管理 业务 (商业 计算 )。 数 据 库 的 特点 是 : 
@ 不 同 的 业务 (人 事 、 财 务 、 设 备 等 ) 需 要 建立 不 同 的 数据 库 ; 
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@ 随时 间 .业务 的 变化 随时 修改 数据 ; 

@@ 数据 库 是 共享 的 数据 。 

由 于 数据 库 的 出 现 使 计算 机 走向 了 社会 。 现 在 社会 中 的 各 行 各 业已 经 离 不 开 数 据 库 
了 ,数据 库 已 成 为 各 行 各 业 现 代 化 管理 的 基础 设施 。 

(2) 用 于 决策 的 数据 仓库 

决策 需要 大 量 的 数据 。 有 了 数据 仓库 以 后 ,计算 机 利用 数据 辅助 决策 成 为 现实 ,因为 数 
据 仓库 中 存储 了 当前 数据 .历史 数据 和 汇总 数据 。 辅 助 决策 的 方式 主要 有 

@ 历史 数据 用 于 预测 ; 

@ 从 汇总 数据 的 比较 (不 同 角度 ) 中 发 现 问题 

@ 从 详细 数据 中 找 出 原因 。 


3. 数据 存储 进化 的 小 结 


计算 机 的 数据 存储 量 愈 来 愈 大 ,数据 种 类 也 愈 来 愈 多 ,这 样 使 计算 机 处 理 问 题 的 能 力也 
愈 来 愈 强 。 

数组 一 般 用 于 数值 计算 ,数据 库 用 于 管理 业务 ,数据 仓库 用 于 决策 支持 。 

数据 是 计算 机 解决 实际 问题 的 基础 。 数 据 存储 是 计算 机 重要 组 成 部 分 ,数据 存储 的 进 
化 是 计算 机 进化 的 一 个 大 的 方面 。 


12.2.4 知识 处 理 的 进化 


知识 处 理 的 进化 中 ,一 个 典型 过 程 可 以 概括 为 : 
知识 表示 与 知识 推理 一 专家 系统 王 知识 发 现 与 数据 挖掘 


1. 知识 表示 与 知识 推理 


(1) 知识 表示 
知识 在 计算 机 中 的 存储 和 使 用 的 形式 ,典型 的 知识 表示 有 : 
产生 式 规则 (A 一 B) .谓词 P(x,y) 等 
(2) 知识 推理 
从 已 知 条 件 利用 知识 推出 结果 : 
规则 的 推理 : 假 言 推理 : p 一 g,p 上 gq 
谓词 的 推理 : 归结 原理 ( 反 证 法 ) 
(3) 谓词 推理 例 
谓词 逻辑 是 用 谓词 公式 表示 文本 内 容 。 
例 : 每 个 储蓄 的 人 都 获得 利息 。 表 示 成 谓词 公式 为 : 
Vz[LC3y)(CSCzy)) AMCy)] 一 [(3y)CICy) A 下 (zy))] 
其 中 : x 表示 人 ,y 表示 钱 ,S( ) 表 示 储 蕾 ,M( ) 表 示 有 钱 ,TI( ) 表 示 利 息 ,E( ) 表 示 
获得 。 
谓词 的 推理 分 两 部 分 : 把 谓词 公式 化 简 成 只 含 V 的 子 句 (包括 一 ); @ 归 结 。 
谓词 公式 中 包含 所 有 逻辑 运算 符 , 即 人 V 一 一 人 和 3 了 VY。 化 简 过 程 主要 有 : 
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@ 消 去 : 一 、3 、V ; @ 把 谓词 公式 化 为 合 取 范 式 ;如 (AV B) 和 (CVD); 图 分 解 合 取 范 式 为 
只 含 V 的 子 句 。 该 子 句 变 为 AVBCVD。 

上 面 谓词 公式 的 子 句 为 : 

i 0 yD RS 

© ~S(r,yV ~M(y)VE(z, f(z)) 

对 于 谓词 逻辑 的 推理 的 归结 原理 ( 反 证 法 ) 是 利用 前 提 谓 词 公式 证 明 结 论 谓词 公式 : 

Q@ 把 前 提 谓 词 公 式 化 简 成 子 句 。 

@ 把 结论 谓词 公式 取 非 后 化 简 成 子 句 。 

@ 归结 时 ,消去 二 个 子 句 中 正 、 负 谓词 后 合并 为 一 个 子 句 。 

@ 归结 的 最 后 为 空子 句 (产生 矛盾 ) ,就 证 明了 结论 谓词 公式 的 正确 性 。 

(4) 知识 推理 不 同 于 数值 计算 

知识 推理 使 计算 机 进入 符号 处 理 的 新 领域 。 这 种 符号 处 理 是 建立 在 逻辑 运算 的 基础 
上 ,逻辑 运算 符号 有 多 个 。 在 谓词 逻辑 中 ,对 谓词 公式 要 化 简 成 只 含 V 的 子 句 (包括 一 ), 这 
样 就 大 大 简化 了 归结 运算 。 在 归结 中 需要 找 正 、 负 子 句 ,这 少不了 一 个 “对 比 ?操作 ,在 计算 
机 的 指令 中 ,有 “比较 ”操作 。 

可 以 看 出 ,“ 比 较 ” 操 作 是 逻辑 运算 的 基础 。 


2. 专家 系统 


专家 系统 中 对 规则 知识 的 逆向 推理 ,并 没有 将 所 有 的 规则 都 连接 成 一 棵 知识 推理 树 , 进 
行 深度 优先 搜索 。 而 是 利用 规则 栈 ,反复 地 搜索 知识 库 中 的 知识 ,通过 知识 的 进 栈 和 出 栈 ， 
达到 推理 树 的 深度 优先 搜索 。 为 什么 要 这 样 做 ? 

理由 有 两 个 : 将 规则 知识 连接 成 知识 推理 树 并 不 好 做 ,因为 树 的 分 支 个 数 是 不 固定 
形式 的 ,用 指针 链表 难于 设计 ; @ 在 规则 栈 中 从 栈 顶 规则 知识 找到 和 它 连 接 的 知识 ,需要 在 
知识 库 中 从 头 到 尾 搜索 一 遍 知识 库 , 才 能 找到 所 要 的 知识 。 同 样 , 继 续 找 下 一 个 连接 的 知 
识 , 又 得 在 知识 库 中 从 头 到 尾 搜索 一 遍 知 识 库 , 才 能 找到 所 要 的 知识 。 这 种 反复 搜索 知识 库 
中 知识 的 操作 ,对 计算 机 程序 而 言 是 很 容易 的 ,可 利用 循环 来 完成 。 

虽然 ,知识 推理 采用 规则 栈 的 方式 是 合适 的 ,这 是 用 耗费 计算 机 的 计算 时 间 ( 反 复 搜索 
知识 库 ) 来 完成 知识 的 推理 。 

知识 库 中 搜索 找到 所 要 的 知识 ,也 是 一 个 "比较 ?操作 。 可 见 ， 比 较 操 作对 于 规则 知识 
的 推理 和 谓词 推理 的 归结 都 是 基础 。 可 以 归纳 出 ,比较 ?操作 是 符号 处 理 的 基础 。 


3. 知识 发 现 与 数据 挖掘 


知识 发 现 与 数据 挖掘 已 经 在 第 6 章 中 做 了 详细 说 明 。 这 里 只 讨论 粗糙 集 方法 的 属性 约 
简 和 分 类 知识 的 获取 的 逻辑 计算 基础 。 
粗糙 集 以 等 价 关 系 (不 可 分 辨 关系 ) 为 基础 ,用 于 分 类 问题 。 等 价 关系 定义 为 ,不 同 元 组 
(对 象 )z 和 y 对 属性 a 的 等 价 关 系 是 它们 的 属性 值 相同 。 等 价 类 是 所 有 具有 等 价 关系 的 对 
象 的 集合 。 粗 糙 集 定义 了 上 、 下 近似 两 个 集合 来 和 逼 近 任意 一 个 集合 X。 上 近似 定义 为 : 等 
价 类 中 元 素 + 都 属于 X。 下 近似 定义 为 : 等 价 类 中 元 素 可 能 属于 X ,也 可 能 不 属于 X。 
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(1) 粗糙 集 的 属性 约 简 方法 

粗糙 集 的 属性 约 简 原理 是 : 在 条 件 属性 集 C 中 去 掉 一 个 条 件 属性 后 ,相对 于 决策 属 
性 DD 的 正 域 与 去 掉 属性 c 前 的 正 域 相 同 , 该 属性 c 可 约 简 。 

计算 正 域 时 需要 进行 等 价 类 计算 ,等 价 类 的 计算 就 是 要 对 属性 值 进行 “比较 "操作 ,检查 
是 否 相 同 。 

可 见 ,“ 比 较 ” 操 作 是 属性 约 简 方法 的 基础 。 

(2) 分 类 知识 的 获取 

粗糙 集 的 分 类 知识 获取 原理 是 依据 集合 的 蕴含 关系 , 当 条 件 属 性 集中 的 等 价 类 蕴含 于 
决策 属性 的 等 价 类 , 则 存在 它们 之 间 的 分 类 规则 知识 。 这 种 蕴含 关系 若是 上 近似 , 则 分 类 规 
则 知识 的 可 信 度 为 1。 这 种 蕴含 关系 若是 下 近似 , 则 分 类 规则 知识 的 可 信和 度 小 于 1。 

蕴含 关系 的 计算 涉及 集合 域 的 比较 , 即 条 件 属性 集中 的 等 价 类 与 决策 属性 的 等 价 类 的 
比较 。 

可 见 ,“ 比 较 ” 操 作 也 是 分 类 知识 获取 方法 的 基础 。 

知识 发 现 与 数据 挖掘 的 其 他 方法 中 的 逻辑 计算 都 是 以 “比较 ”操作 为 基础 的 。 


12.2.5 进化 规律 的 知识 挖掘 


1. 计算 机 的 原始 本 能 


通过 以 上 分 析 ,首先 要 总 结 一 下 计算 机 的 原始 本 能 。 它 主要 包括 如 下 三 点 。 

(1) 数值 计算 的 加 法 

任何 复杂 的 运算 只 要 能 化 简 成 算术 运算 (加 、 减 、 乘 , 除 )., 它 就 能 在 计算 机 中 进行 运算 ， 
如 微 积分 计算 、 解 方程 等 都 要 化 简 成 算术 运算 。 算 术 运 算 又 可 归结 为 加 法 运算 。 

(2) 二 值 数据 表示 

二 进 制 数据 开始 时 用 于 计算 ,后 来 发 展 为 用 二 值 数据 来 表示 。 任 何 媒体 只 要 能 用 二 值 
数据 表示 , 它 就 能 在 计算 机 中 存储 和 处 理 。 这 是 计算 机 存储 的 基础 。 

(3) 逻辑 运算 的 比较 

数值 计算 .数据 管理 .知识 处 理 等 中 间 的 逻辑 运算 的 本 质 是 “比较 ?操作 ,数值 的 比较 是 
大 小 的 比较 ,符号 的 比较 在 于 是 否 相 同 。 计 算 机 程序 的 顺序 .选择 、 循 环 结构 的 运行 基础 也 
是 逻辑 运算 的 “比较 ”。 


2. 计算 机 的 优势 和 不 足 


(1) 计算 机 的 优势 

@ 计算 机 的 存储 量 很 大 

计算 机 的 飞速 发 展 使 计算 机 的 存储 量 愈 来 愈 大 。 这 样 ,使 汉字 、 多 媒体 能 以 大 量 的 二 值 
点 阵 数据 存 人 计算 机 中 。 使 计算 机 既 能 求解 未 知 数 上 万 的 方程 组 ,也 能 处 理 变 化 多 端的 多 
媒体 。 

@ 计算 机 的 计算 速度 很 快 

计算 机 的 飞速 发 展 同样 使 计算 机 的 运算 速度 愈 来 愈 快 。 这 样 就 使 大 量 未 知 数 的 迭代 方 
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程 能 快速 完成 ,智能 计算 的 大 面积 搜索 能 迅速 实现 。 

(2) 计算 机 的 不 足 

@ 计算 机 不 能 做 随机 变化 的 运算 (计算 机 程序 无 法 编制 ) ,只 能 按 顺 序 .选择 .循环 的 方 
式 执行 。 

@ 计算 机 不 能 对 大 数量 的 结 点 按 指数 增长 的 方式 搜索 (计算 机 运行 时 间 太 长 , 跟 不 上 


3. 复杂 问题 的 解决 途径 


复杂 问题 的 求解 需要 把 问题 进行 化 解 到 计算 机 的 本 能 所 能 解决 的 手段 上 来 , 即 表示 为 
复杂 问题 求解 = 计算 机 的 本 能 十 问题 化 解 后 求解 


4. 问题 化 解 方法 


(1) 复杂 问题 的 化 解 原则 
@ 所 有 复杂 的 数值 计算 问题 都 需要 经 过 化 简 回 归 到 “十 一 X 二 ”。 
@ 所 有 复杂 问题 的 运行 结构 都 可 用 "顺序 .选择 .循环 ”三 种 基本 结构 的 内 套 组 合 来 


@ 任何 媒体 数字 化 (二 值 化 ) 后 ,就 可 以 存 人 计算 机 并 进行 处 理 。 
@ 充分 利用 计算 机 的 大 量 存 储 空间 和 快速 运算 ,把 复杂 的 物体 在 空间 上 细 化 (如 二 值 
化 表示 、 未 知 数 结 点 增加 ) ,或 使 计算 重复 化 (如 和 迭代、 搜索 ) , 即 充 分 发 挥 计算 机 的 优势 。 

(2) 表达 式 的 化 解 原则 

表达 式 的 化 解 原则 是 把 人 为 的 优先 规定 , 变 成 前 后 顺序 过 程 。 

@ 改变 算术 运算 的 “ 先 乘 除 .后 加 减 ,括号 优先 ?原则 ,成 为 "前 后 ”顺序 关系 。 

把 算术 表达 式 ( 中 级 ) 变 成 逆 波 兰 式 (后 级 )。 这 是 编译 原理 中 最 关键 的 地 方 。 

@ 改变 函数 微分 运算 中 ,对 表达 式 中 求 微 分 的 顺序 是 先 低级 (十 一) 后 高 级 (X.、 垃 ) 的 
原则 ,成 为 顺序 关系 。 
把 表达 式 ( 中 级 ) 变 成 波兰 式 (前 级 ) ,例如 : 


UX 对 PE/d>+ X Ww/pq 
aX (brc) 一 X abc 


对 任意 的 函数 的 中 绥 表 达 式 变 成 前 缀 表达 后 ,其 导数 求解 时 ,每 次 就 很 自然 地 按 前 缀 表 
达 式 的 顺序 套用 微分 公式 ,计算 机 就 能 顺利 地 求 出 此 函数 的 导数 。 按 这 种 方法 编制 的 导数 
自动 求解 系统 能 作为 高 等 数学 课程 的 辅助 答疑 系统 。 

(3) 采用 间接 运算 方法 

对 于 不 能 编制 程序 完成 的 随机 求解 的 过 程 ,可 以 采用 间接 运算 方法 , 即 : 

随机 求解 过 程 = 二 间接 运算 十 循环 运算 

计算 机 程序 中 采用 对 数据 地 址 的 操作 ,开始 了 间接 运算 。 这 种 方法 可 以 扩展 到 对 随机 

求解 过 程 中 去 。 
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@ 专家 系统 工具 的 研制 

在 知识 库 还 是 空 时 ,只 要 规定 知识 的 结构 形式 ,就 可 以 编制 推理 机 程序 。 推 理 机 程序 是 
对 知识 结构 进行 操作 ,包括 对 知识 的 搜索 、 进 栈 、 退 栈 、 提 问 、 解 释 等 。 编 制 推理 机 程序 就 是 
采用 间接 运算 的 方法 。 

@ 遗传 算法 

遗传 算法 的 重要 特点 是 对 个 体 编码 位 置 的 操作 ,而 不 是 直接 对 编码 本 身 的 含义 (参数 ) 
操作 。 这 也 是 典型 的 间接 运算 。 

@ 采用 间接 运算 方法 解决 方程 随机 求解 的 问题 

在 求解 运输 问题 的 位 势 方 程 时 ,是 一 个 是 随机 求解 过 程 。 例 如 ,有 如 下 位 势 方 程 : 

atd=7; cd =2, cd=6 
ct+di=9, cd =4, c+t+d,=8 

以 上 6 个 方程 7 个 未 知 数 ,在 给 定 c= 二 0 后 ,求解 其 他 的 c 和 d;。 这 6 个 方程 的 求解 顺 
序 是 跳跃 式 的 。 因 为 在 方程 中 ,只 能 在 两 个 未 知 数 中 ,有 一 个 已 求 出 、 另 一 个 未 求 出 时 ,该 方 
程 才能 求解 。 其 他 情况 下 都 不 能 求解 。 对 于 这 样 的 随机 求解 过 程 ,程序 是 无 法 编制 的 。 

为 此 ,采用 间接 运算 方法 , 即 对 每 个 未 知 数 设 计 一 个 是 否 求 出 的 标志 位 ,顺序 搜索 每 个 
方程 ,检查 未 知 数 的 标志 位 是 否 符合 求解 要 求 , 不 符合 时 跳 过 该 方程 ,符合 时 再 检查 未 知 数 
的 标志 位 中 哪个 已 求 出 ( 设 为 1) 、 哪 个 未 求 出 ( 设 为 0) ,再 求 未 求 出 的 未 知 数 的 值 。 这 样 , 把 
随机 求解 过 程 变 成 “间接 求解 加 上 循环 顺序 求解 ”过 程 。 这 种 求解 过 程 要 循环 多 次 才能 完 
成 。 具 体 求解 过 程 说 明 如 下 : 

循环 第 一 次 位 势 方程 的 求解 : 第 一 个 方程 可 求解 (c 标志 位 改 为 1,ds 的 标志 位 为 0)， 
求 得 解 为 ds 二 7,ds 的 标志 位 改 为 1。 第 二 个 方程 检查 两 个 未 知 数 的 标志 位 均 为 0, 不 能 求 
解 , 跳 过 该 方程 。 第 三 个 方程 检查 两 个 未 知 数 的 标志 位 ,cs 标志 位 为 0,d 的 标志 位 为 1, 能 
求解 , 求 得 解 为 一 一 1,cs 标志 位 改 为 1。 第 四 个 方程 检查 两 个 未 知 数 的 标志 位 均 为 0, 不 
能 求解 , 跳 过 该 方程 。 第 五 个 方程 检查 两 个 未 知 数 的 标志 位 均 为 0, 不 能 求解 , 跳 过 该 方程 。 
ea 位 ,cs 标志 位 为 0,ds 的 标志 位 为 1, 能 求解 , 求 得 解 为 cs 
二 1。 第 一 次 循环 结束 ,通过 这 次 循环 , 求 出 的 未 知 数 w .cs 、cs 的 值 。 

ep ed mt 这 种 间接 运 
算 方 法 把 随机 求解 变 成 了 间接 求解 加 上 循环 顺序 求解 。 

(4) 有 效 使 用 标准 程序 工具 

成 熟 的 程序 已 经 以 工具 的 形式 提供 服务 ,如 : 

@ 成 熟 的 程序 (如 初等 函数 绘图 ,数据 库 接口 .网络 应 用 等 计算 ) 作 为 标准 的 子 程序 放 
人 子 程 序 库 中 ,通过 连接 并 入 应 用 程序 中 。 

@ 统计 标准 程序 的 工具 ,如 SAS、SPSS 等 。 

有 效 地 使 用 标准 程序 工具 将 简化 实际 系统 的 编程 。 

(5) 多 资源 组 合 形成 解决 问题 的 方案 

决策 资源 有 数据 、 模 型 .知识 ,有 效 地 组 合 这 些 资 源 能 达到 辅助 决策 。 组 合 的 方法 是 编 
制 一 个 总 控制 程序 ,通过 调用 这 些 资源 的 接口 ,按照 程序 的 顺序 选择、 循环 的 基本 结构 形式 
进行 徐 套 组 合 ,形成 多 个 方案 ,建立 决策 支持 系统 ,用 于 解决 决策 问题 。 
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5. 利用 计算 机 的 优势 


(1) 扩大 存储 量 

Q@ 代数 方程 或 微分 方程 的 未 知 数 已 扩大 到 上 万 个 。 大 面积 的 物理 方程 (天 气 预报 等 ) 
的 求解 成 为 可 能 。 

@ 用 点 阵 的 二 值 数据 表示 汉字 、 声 音 、 图 像 、 视 频 等 ,开始 了 多 媒体 的 处 理 ( 于 20 世纪 
80 年 代 兴 起 )。 

@ 数据 库 ( 二 维 数据 ) 扩 充 为 数据 仓库 (多 维 数据 ) 。 存 放大 量 数据 的 数据 仓库 为 辅助 
决策 开辟 了 新 方向 (于 20 世纪 90 年 代 兴 起 ) 。 

(2) 不 惜 计 算 时 间 

Q@ 数值 计算 的 迭代 法 

数值 计算 的 迭代 法 就 是 不 惜 计 算 时 间 ,进行 重复 计算 ,来 求 得 方程 的 解 ,迭代 次 数 可 以 
是 几 万 次 或 更 多 ,只 要 是 收敛 的 ,就 总 能 够 得 到 满足 精度 的 解 。 

@ 用 循环 的 顺序 计算 代替 随机 求解 过 程 的 计算 

例如 上 面 提 到 的 运输 问题 的 位 势 方程 求解 , 它 是 随机 求解 过 程 , 利 用 了 间接 运算 加 上 循 
环 运算 进行 求解 ,这 是 利用 多 化 计算 时 间 来 代替 随机 求解 过 程 的 编程 困难 。 

@ 知识 推理 中 的 知识 搜索 

在 知识 推理 中 对 知识 库 中 知识 的 多 次 反复 搜索 ,完成 了 知识 树 的 逆向 推理 。 这 也 是 不 
惜 计 算 时 间 , 简 化 了 编程 。 

中 人 机 博弈 中 走 棋 路 径 的 搜索 

人 机 博弈 中 ,计算 机 的 走 步 是 计算 对 抗 双方 所 有 的 棋子 的 走 棋 路 径 , 通 过 棋局 的 静态 估 
计 函 数 ,选择 最 佳 走 棋 路 径 。 这 是 典型 的 不 惜 计算 时 间 , 达 到 人 难以 思考 的 深度 , 即 计 算 机 
计算 对 抗 中 ,双方 一 人 一 步 对 抗 的 回合 数 能 够 多 于 人 ,从 而 战胜 人 。 例 如 五 子 棋 , 计 算 机 计 
算 对 抗 双 方 一 人 一 步 的 回合 数 , 计 算 机 可 以 搜索 到 最 后 的 终止 局 面 。 人 若 犯 一 个 错误 ,就 将 
输 给 计算 机 。 

若 棋子 多 ,双方 对 抗 的 回合 次 数 又 多 ,所 有 走 棋 路 径 将 成 指数 次 方 的 数量 增长 。 要 搜索 
所 有 走 棋 路 径 ,一 般 需 用 亿 次 机 来 计算 。 

在 国际 象棋 .中 国 象棋 等 的 比赛 中 ,计算 机 均 战 胜 过 人 类 高 手 。 但 是 ,围棋 所 有 走 棋 路 
径 按 指数 次 方 的 数量 增长 ,数量 太 大 ,计算 机 还 无 法 完成 。 


6. 结束 语 


计算 机 (包括 软件 .硬件 ) 虽 然 是 非 生物 ,但 在 人 类 的 帮助 下 ,计算 机 在 模拟 人 的 能 力 方 
面 得 到 了 飞速 的 发 展 。 本 书 作者 针对 计算 机 进化 过 程 进 行 了 研究 ,发掘 了 一 些 进化 规律 ,以 
便 能 更 清楚 地 认识 计算 机 的 本 质 , 这 对 于 提高 人 们 对 计算 机 的 使 用 效果 ,以 及 进一步 促进 计 
算 机 的 进化 起 到 了 积极 的 作用 。 计 算 机 进化 规律 的 知识 发 现 这 个 有 意义 的 课题 ,希望 能 够 
唤起 有 兴趣 者 发 气 更 多 的 计算 机 进化 规律 ,加 速 计算 机 的 进化 ,使 计算 机 更 有 效 地 为 人 类 
服务 。 
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习 题 12 


. 数学 变换 在 数学 中 起 什么 作用 ? 

. 变换 规则 知识 与 规则 知识 有 什么 不 同 ? 为 什么 要 研究 变换 规则 知识 ? 

. 变换 规则 的 知识 控 掘 定理 1 和 定理 2 说 明了 什么 问题 ? 

. 变换 规则 的 知识 挖掘 过 程 是 怎样 的 ? 

. 变换 规则 的 知识 推理 与 一 般 规 则 的 知识 推理 有 什么 不 同 ? 

. 变换 规则 知识 链 定理 说 明了 什么 问题 ? 

. 在 数据 仓库 中 如 何 获取 多 种 变换 的 变换 规则 知识 链 ? 

. 用 变换 规则 作为 元 知识 的 表示 形式 比 一 般 规 则 作为 元 知识 的 表示 形式 有 什么 好 处 ? 
. 神经 网 络 的 变换 规则 元 知识 是 否 说 明了 神经 网 络 的 本 质 ? 

. 属性 约 简 的 变换 规则 元 知识 是 否 说 明了 属性 约 简 的 本 质 ? 

. 专家 系统 的 元 知识 采用 变换 规则 元 知识 表示 有 什么 好 处 ? 

. 你 理解 的 软件 进化 是 什么 ? 

. 计算 机 的 计算 过 程 与 人 的 计算 过 程 有 什么 不 同 ? 

14. 


LS: 


计算 机 程序 为 什么 采用 对 数据 的 存放 地 址 的 间接 操作 ? 
为 什么 说 “任何 复杂 的 程序 都 是 顺序 .选择 .循环 这 三 个 基本 结构 的 嵌 套 组 合 ”, 它 


能 保证 程序 的 正确 性 吗 ? 


16. 
17. 
18. 
19: 
20. 
21， 
22. 
23. 
24. 
25, 
26. 


数据 库 与 数据 仓库 的 数据 有 什么 本 质 的 不 同 ? 它们 是 如 何 应 用 的 ? 
在 知识 推理 中 是 如 何 进行 大 规模 的 知识 搜索 的 ? 

为 什么 说 数值 计算 都 要 回 到 “加 减 乘除 ”? 

为 什么 说 “比较 ”操作 是 逻辑 计算 的 基础 ? 

为 什么 说 汉字 与 多 媒体 要 用 二 值 数 据 来 表示 ? 

你 认为 计算 机 的 原始 本 能 是 什么 ? 

你 认为 复杂 问题 的 求解 需要 把 问题 化 解 到 计算 机 的 本 能 所 能 解决 的 手段 上 来 吗 ? 
对 于 随机 求解 过 程 的 问题 ,计算 机 编程 采用 了 哪些 方法 ? 

用 间接 求解 方法 能 和 否 代 蔡 “把 表达 式 变化 为 逆 波 兰 式 " 方 法 ? 

你 也 来 总 结 一 下 软件 进化 的 规律 ,共同 提高 大 家 的 认识 。 

你 认为 计算 机 有 什么 不 足 ? 如 何 来 克服 ,并 进一步 促进 计算 机 的 进化 ? 
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得 13 辣 ”文本 浸 沁 与 Wsb 泡 沁 
13.1 文本 挖掘 概述 


13.1.1 文本 挖掘 的 基本 概念 


在 现实 世界 中 ,人 们 面 对 的 数据 大 都 是 文本 数据 ,由 各 种 数据 源 ( 如 新 闻 文 章 、 研 究 论 
文 .书籍 .数字 图 书馆 .电子 邮件 和 Web 页 面 ) 的 大 量 文本 组 成 。 由 于 文本 的 信息 量 的 飞速 
增长 ,如 电子 出 版 物 .电子 邮件 .CD-ROM 和 Web 等 。Web 中 99% 的 可 分 析 信 息 是 以 文本 
形式 存在 的 。Web 网 页 总 量 已 达 数 百 亿 ,每 天 新 增 网 页 数 千 万 ,截至 2008 年 年 底 , 中 国 网 
页 总 数 超过 160 亿 个 。 

文本 数据 是 半 结 构 化 数据 , 它 既 不 是 完全 无 结构 的 ,也 不 是 完全 结构 化 的 。 例 如 ,文本 
可 能 包含 结构 字段 ,如 标题 ,作者 、 出 版 日 期 .长 度 , 分 类 等 ,也 可 能 包含 大 量 的 非 结 构 化 的 文 
本 ,如 摘要 和 内 容 。 

文本 挖掘 与 数据 挖掘 的 区 别 在 于 : 数据 挖掘 的 对 象 以 数据 库 中 的 结构 化 数据 为 主 ,并 
利用 关系 表 等 存储 结构 来 发 现 知识 。 文 本 挖掘 中 文档 本 身 是 半 结 构 化 的 或 非 结构 化 的 ,无 
确定 形式 ,并且 缺 乏 机 器 可 理解 的 语义 。 因 此 ,数据 挖掘 的 技术 不 完全 适用 于 文本 挖掘 ,至 
少 需 要 进行 预 处 理 。 

文本 挖掘 (Text Mining) ,也 称 为 文本 数据 挖掘 (Text Data Mining) 。 文 本 挖掘 一 词 出 
现 于 1998 年 第 十 届 欧 洲 机 器 学 习 会 议 (the European Conference On Machine Learning， 
ECML”98) 上 ,首次 进行 了 关于 文本 挖掘 的 专题 讨论 会 。 组 织 者 Kodratoff 明确 地 定义 了 文 
本 挖掘 的 概念 ,他 认为 文本 挖掘 的 目的 是 从 文本 集合 中 搜寻 知识 , 即 在 目前 对 自然 语言 理解 
的 水 平 上 ,利用 该 领域 的 成 果 , 试 图 尽 可 能 多 地 提取 知识 。 因 此 ,文本 挖掘 需要 数据 挖掘 . 语 
言 学 ,数据库 以 及 文本 标记 和 理解 方面 的 专家 的 参与 。 


1. 概念 


文本 挖掘 是 一 个 从 大 量 文本 数据 中 提取 以 前 未 知 的 有 用 的 、 可 理解 的 、 可 操作 的 知识 
的 过 程 。 文 本 数据 包括 技术 报告 .文本 集 、 新 闻 、 电 子 邮 件 、 网 页 、 用 户 手 册 等 。 文 本 挖 所 对 
单个 文本 或 文本 集 ( 如 Web 搜索 中 返回 的 结果 集 ) 进 行 分 析 , 从 中 提取 概念 ,并 按照 指定 的 
方案 组 织 、 概 括 文 本 ,发 现 文本 集中 重要 的 主题 。 它 除了 从 文本 中 提取 关键 词 外 ,还 要 提取 
事实 ,作者 的 意图 、 期 望 和 主张 等 。 这 些 知识 对 许多 应 用 目标 ,如 市 场 营销 、 趋 势 分 析 、 需 求 
处 理 等 ,都 是 很 有 用 的 。 


2. 主要 任务 


文本 挖掘 的 任务 主要 是 : 
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(1) 短语 和 特征 的 提取 。 在 读 取 大 量 的 非 结 构 化 文本 时 ,应 用 自然 语言 处 理 技术 提取 
文本 集中 所 有 相关 的 短语 。 文 本 内 容 可 看 成 由 它 所 包含 的 基本 语言 单位 ( 字 、 词 .词组 或 短 
语 等 ) 组 成 的 集合 。 在 短语 提取 中 ,还 要 将 非 结构 化 的 原始 文本 短语 集合 的 内 容 转换 为 更 加 
容易 处 理 的 概念 级 数据 。 可 以 形象 地 把 文本 挖掘 看 做 是 一 支 荧 光 笔 , 它 通 读 文 本 时 高 亮度 
显示 有 关 的 短语 ,这 些 短语 放 在 一 起 就 可 以 得 到 对 文本 的 一 个 较 好 的 概括 性 理解 。 

对 于 能 够 描述 和 说 明文 本 的 短语 ,可 称 之 为 文本 的 特征 。 短 语 和 特征 的 提取 是 文本 挖 
据 的 首要 任务 。 

(2) 文本 关联 分 析 。 文 本 挖掘 的 核心 功能 表现 为 分 析 一 个 文本 集合 中 的 各 个 文本 之 间 
概念 共同 出 现 的 模式 。 实 际 上 ,文本 挖掘 依靠 算法 和 启发 式 方法 ,器 文本 考虑 概念 分 布 、 频 
繁 概念 (项 ) 以 及 各 种 概念 的 关联 ,其 目的 是 使 用 户 发 现 概念 的 关联 ,这 种 概念 的 关联 是 文本 
集合 作为 一 个 整体 所 反映 出 来 的 。 

(3) 文本 聚 类 与 文本 分 类 。 文 本 聚 类 是 对 文本 集合 中 的 各 个 文本 之 间 从 没有 类 别 , 按 
就 近 原则 聚合 成 类 。 文 本 分 类 是 对 文本 集合 中 已 经 有 了 类 ,建立 起 各 类 的 规则 知识 , 按 此 规 
则 对 新 文本 进行 分 类 。 


3. 文本 挖掘 与 数据 挖掘 


文本 挖掘 与 数据 挖掘 相 比 , 它 们 的 相似 点 在 于 两 者 都 处 理 大 量 的 数据 ,都 可 归属 到 知识 
发 现 领域 中 。 它 们 之 间 的 差别 在 于 许多 经 典 的 数据 挖掘 算法 ,如 数值 预测 .决策 树 等 都 不 太 
适用 于 文本 挖掘 ,因为 它们 依赖 于 结构 化 的 数据 ,而 短语 或 概念 关联 分 析 等 工作 则 是 文本 控 
据 所 独 有 的 ,如 表 13.1 所 示 。 


表 13.1 文本 挖掘 与 数据 挖掘 的 区 别 


数据 挖掘 文本 挖掘 
研究 对 象 用 数字 表示 的 、 结 构 化 的 数据 无 结构 或 者 半 结 构 化 的 文本 
对 象 结构 关系 数据 库 自由 开放 的 文本 
目标 获取 知识 ,预测 以 后 的 状态 提取 概念 和 知识 
方法 归纳 学 习 、 决 策 树 、 神 经 网 络 、 粗 糙 集 、 提取 短语 形成 概念 .关联 分 析 、 聚 类 、 
遗传 算法 等 分 类 
成 熟 度 从 1994 年 开始 得 到 广泛 应 用 从 2000 年 开始 得 到 广泛 应 用 


13.1.2 文本 特征 的 表示 


与 数据 库 中 的 结构 化 数据 相 比 ,文本 具有 有 限 的 结构 ,或 者 说 根本 就 没有 结构 。 即 使 具 
有 一 些 结构 ,也 是 着 重 于 格式 ,而 非 文本 内 容 。 不 同类 型 文本 的 结构 也 不 一 致 。 此 外 ,文本 
的 内 容 是 人 类 所 使 用 的 自然 语言 ,计算 机 很 难处 理 其 语义 。 文 本 信息 源 的 这 些 特殊 性 使 得 
现 有 的 数据 挖掘 技术 无 法 直接 应 用 于 其 上 ,需要 对 文本 进行 预 处 理 , 抽 取代 表 其 特征 的 元 数 
据 。 这 些 特征 可 以 用 结构 化 的 形式 保存 ,作为 文本 的 中 间 表 示 形 式 。 
文本 特征 指 的 是 关于 文本 的 元 数据 ,分 为 : 中 描述 性 特征 ,例如 文本 的 名 称 、 日 期 ,大 
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小 、 类 型 等 ; @ 语 义 性 特征 ,例如 文本 的 作者 .机构 .标题 ,内容 等 。 描 述 性 特征 易于 获得 ,而 
语义 性 特征 则 较 难 得 到 。 对 于 内 容 这 个 难以 表示 的 特征 ,我们 首先 要 找到 一 种 能 够 被 计算 
机 所 处 理 的 表示 方法 。 

矢量 空间 模型 (VSM) 是 效果 较 好 的 表示 文本 特征 的 方法 。 在 该 模型 中 ,文本 空间 被 看 
做 是 由 一 组 正 交 词 条 矢量 所 形成 的 矢量 空间 ,每 个 文本 4 表示 为 其 中 的 一 个 规范 化 特征 
矢量 : 

V(d) = (nw (Cd) sostirtwd) 3;t, ,tw (d)) 

其 中 4 为 词 条 项 ,wi(d) 为 4; 在 d 中 的 权 值 。 可 以 将 4d 中 出 现 的 所 有 单词 或 所 有 短语 作为 
ti, 从 而 提高 内 容 特 征 表示 的 准确 性 。ww; (4) 一 般 被 定义 为 t; 在 d 中 出 现 频率 1f;(d) 的 函 
数 , 即 ww ee 常用 的 亚 有 : 


(1) 布尔 函 
1, zfi(d)>0 
名 一 
医 tfi(d) =0 
(2) 平方 根 函 数 
y= Vtfi(d) 
(3) 对 数 函 数 


= log (tri(Cd) 十 1) 
13.1.3 文本 特征 的 提取 


特征 提取 主要 是 识别 文本 中 代表 其 特征 的 词 项 。 提 取 过 程 是 自动 的 ,提取 的 特征 大 部 
分 是 文本 集中 表示 的 概念 。 文 本 特征 分 为 一 般 特 征 和 数字 特征 ,其 中 一 般 特征 主要 包括 动 
词 和 名 词 短语 ,如 人 名 、 组 织 名 等 ;数字 特征 主要 包括 日 期 时间、 货币 以 及 单纯 数字 信息 。 
这 些 特 征 包含 重要 的 信息 ,因此 特征 提取 是 一 种 强 有 力 的 文本 挖掘 技术 。 通 过 文本 特征 抽 
取 , 用 于 记录 文本 的 特征 ,可 以 更 好 地 组 织 文本 ,如 文本 的 存储 检索. 过滤 .分 类 和 摘要 等 。 

中 文 姓名 识别 属于 中 文 信息 处 理 中 未 登录 词 处 理 的 范畴 ,中 文 姓名 在 文章 中 的 出 现 频 
率 虽然 不 高 ,但 绝 不 可 以 忽略 ,因为 中 文 姓名 本 身 包含 着 重要 的 信息 , 它 可 能 是 整个 句子 其 
至 整个 段落 的 语义 中 心 , 如 果 不 予 处 理 , 将 影响 文本 挖掘 的 性 能 。 数 字 特 征 反映 一 定 的 信 
息 ,但 不 能 表达 文本 的 中 心思 想 ,通常 只 作为 文本 挖掘 中 的 参考 信息 。 姓 名 特征 提取 算法 所 
提取 的 姓名 特征 ,作为 文本 内 容 的 特征 表示 。 

构成 文本 的 词汇 ,数量 是 相当 大 的 ,因此 ,表示 文本 的 向 量 空间 的 维 数 也 相当 大 ,可 以 达 
到 几 万 维 ,因此 需要 压缩 维 数 ,这 样 做 的 目的 主要 有 两 个 ,第 一 ,提高 程序 的 效率 ,提高 运行 
速度 ,第 二 ,所 有 几 万 个 词汇 对 文本 分 类 的 意义 是 不 同 的 ,一 些 通用 的 、 各 个 类 别 都 普遍 存在 
的 词汇 对 分 类 的 贡献 小 ,在 某 特定 类 中 出 现 比重 大 而 在 其 他 类 中 出 现 比 重 小 的 词汇 对 文本 
分 类 的 贡献 大 。 

为 了 提高 分 类 精度 ,对 于 每 一 类 ,都 应 去 除 那些 表现 力 不 强 的 词汇 ,筛选 出 针对 该 类 的 
特征 项 集合 。 目 前 存在 多 种 筛选 特征 项 的 算法 ,如 根据 词 和 类 别 的 互信 息 量 判断 \ 根 据 词 凡 
判断 等 。 

例如 ,根据 词 和 类 别 的 互信 息 量 进 行 特征 项 (能 体现 类 别 的 词 ) 抽 取 的 判断 算法 过 程 
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如 下 : 

(1) 初始 情况 下 ,该 特征 项 集合 包含 所 有 该 类 中 出 现 的 词 。 

(2) 对 于 每 个 词 ,计算 词 W; 和 类 别 Ci 的 互信 息 量 I(W ,C)。 

(3) 对 于 该 类 中 所 有 的 词 ,依据 上 面 计 算 的 互信 息 量 排序 。 

(4) 抽取 一 定数 量 的 词 ( 互 信息 量 大 的 词 ) 作 为 特征 项 ,具体 需要 抽取 多 少 特 征 项 ,目前 
尚 无 很 好 的 解决 方法 ,一般 采 用 先 定 初始 值 .然后 根据 实验 测试 和 统计 结果 确定 最 佳 值 ,一 
般 初 始 值 定 在 几 千 左右 。 

(5) 将 每 类 中 所 有 的 训练 文本 ,根据 抽取 的 特征 项 ,进行 向 量 压缩 ,精简 向 量 表示 。 


13.2 文本 挖掘 


13.2.1 文本 挖掘 功能 层次 
文本 挖掘 的 功能 可 以 用 一 个 层次 结构 表示 ,如 图 13. 1 所 示 。 


相似 检索 


词语 关联 分 析 


文本 聚 类 文本 分 类 
自然 语言 处 理 


图 13.1 文本 挖掘 功能 层次 
文本 挖掘 功能 从 顶端 到 底 端 说 明 如 下 。 
1. 关键 词 检索 


关键 词 建立 倒 排 文 件 索引 。 简 单 的 搜索 引擎 通常 基于 关键 词 检索 相关 文档 ,该 技术 与 
传统 的 信息 检索 使 用 的 技术 类 似 。 


2. 相似 检索 
它 与 信息 检索 方法 中 的 相似 性 检索 方法 类 似 , 目 的 是 找到 相似 内 容 的 文本 。 
3. 词语 关联 分 析 


它 不 仅 将 注意 力 放 在 孤立 的 词语 的 相同 或 相似 信息 上 ,而 且 上 聚焦 在 词语 (包括 关键 词 ) 
之 间 的 关联 信息 分 析 上 。 从 而 避免 了 传统 的 信息 检索 技术 带 来 的 信息 不 精确 和 信息 量 过 大 
等 问题 。 


4. 文本 聚 类 和 文本 分 类 


利用 类 似 于 数据 挖掘 的 聚 类 和 分 类 技术 实现 文本 的 聚 类 和 分 类 ,将 文本 在 一 个 更 高 层 
。， 284 。 


次 上 进行 抽象 和 整理 。 
5. 自然 语言 处 理 


这 是 最 复杂 的 功能 , 它 希 望 揭示 自然 语言 处 理 技术 的 语义 ,进行 文本 语义 挖掘 。 
目前 文本 挖掘 主要 是 词语 关联 分 析 文本 聚 类 和 文本 分 类 工作 。 


13.2.2 文本 关联 分 析 


基于 关键 词 或 短语 的 关联 分 析 首 先 收集 经 常 一 起 出 现 的 关键 词 或 短语 ,然后 找 出 其 关 
联 或 相互 关系 。 

关联 分 析 首 先 要 对 文本 数据 进行 词根 处 理 , 去 除非 用 词 等 预 处 理 , 然 后 调用 关联 挖掘 算 
法 。 在 文本 数据 库 中 ,每 一 文本 被 视 为 一 个 事务 ,文本 中 的 关键 词组 可 视 为 事务 中 的 一 组 事 
务 项 , 即 文本 数据 库 可 表示 为 : 

{文本 编号 , 关键 词 集 } 
文本 数据 库 中 关键 词 关 联 挖掘 的 问题 就 变 成 事务 数据 库 中 事务 项 的 关联 挖掘 。 

注意 一 组 经 常 连续 出 现 或 紧密 相关 的 关键 词 可 形成 一 个 词 或 词组 。 关 联 挖 气 有 助 于 找 
出 复合 关联 (compound association) , 即 领域 相关 的 词 或 词组 ,如 [科技 大 学 ,大 学 ] 或 [总 
统 , 克 林 顿 ], 或 非 复合 关联 ,如 [美元 ,参股 ,交易 ,总 额 ,佣金 ,赌注 ,证券 ]。 基 于 这 些 词 关 
联 的 挖掘 称 为 “ 词 级 (term level) 关 联 挖掘”。 

词 的 识别 和 词组 关联 挖掘 在 文本 分 析 中 有 两 个 优点 : 中 词 和 词组 被 自动 标记 ,无 需 人 
去 标记 文本 ; @ 挖 掘 算法 的 执行 时 间 和 无 意义 的 结果 将 极 大 地 减少 。 

利用 这 种 词 和 词组 的 识别 ,关联 分 析 挖 掘 可 以 用 于 找 出 词 或 关键 词 间 的 关联 。 一 些 用 
户 可 能 喜欢 从 给 定 关键 词 或 词组 中 找 出 关键 词 或 词组 之 间 的 关联 ,而 有 些 用 户 可 能 希望 找 
出 一 起 出 现 的 最 大 词 集 。 因 此 ,根据 用 户 挖掘 的 需要 ,可 以 使 用 关联 挖掘 或 最 大 模式 挖掘 
算法 。 


13.2.3 文本 聚 类 


文本 聚 类 是 一 种 典型 的 无 教师 的 机 器 学 习 问 题 。 目 前 的 文本 聚 类 方法 大 致 可 以 分 为 层 
次 聚 类 法 和 平面 划分 法 两 种 类 型 。 


1. 层次 聚 类 法 


对 于 给 定 的 文本 集合 D 二 {di ,…,d;,…,d,) ,层次 聚 类 法 的 具体 过 程 如 下 : 

(1) 将 DD 中 的 每 个 文本 4d; 看 作 是 一 个 具有 单 成 员 的 类 c; 二 {4;}) ,这 些 类 构成 了 DD 的 一 
个 聚 类 C 一 {ca ,ci cn); 

(2) 计算 C 中 每 对 类 (cc ) 之 间 的 相似 度 sim(ciyc); 

(3) 选取 具有 最 大 相似 度 的 类 对 . aim ,cj) ,并 将 c; 和 ci 合并 为 一 个 新 的 类 c= 二 cc 


Uc ,从 而 构成 了 DD 的 一 个 新 的 聚 类 C 一 {c , 和 
(4) 重复 上 述 步 又 ,直至 C 中 剩 下 一 个 类 为 止 。 
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该 过 程 构造 出 一 棵 生成 树 , 其 中 包含 了 类 的 层次 信息 ,以 及 所 有 “类 ”内 和 “类 ” 间 的 相似 
度 。 层 次 聚 类 法 是 最 为 常用 的 聚 类 方法 , 它 能 够 生成 层次 化 的 嵌 套 类 , 且 准 确 度 较 高 。 但 
是 ,在 每 次 合并 时 ,需要 全 局 地 比较 所 有 类 之 间 的 相似 度 ,并 选择 出 最 佳 的 两 个 类 ,因此 运行 
速度 较 慢 ,不 适合 于 大 量 文本 的 集合 。 


2. 平面 划分 法 


平面 划分 法 与 层次 聚 类 法 的 区 别 在 于 , 它 将 文本 集合 水 平地 分 割 为 若干 个 类 , 而 不 是 生 
成 层次 化 的 能 套 类 。 对 于 给 定 的 文本 集合 了 ={a,…'di,…'d,} ,平面 划分 法 的 具体 过 程 
如 下 : 

(1) 确定 要 生成 的 类 的 数目 Ai 

(2) 按照 某 种 原则 生成 & 个 聚 类 中 心 作 为 聚 类 的 种 子 S 一 人 

(3) 对 DD 中 的 每 个 文本 4;, 依 次 计算 它 与 各 个 种 子 ;; 的 相似 度 sim(d; ,sj); 

(4) 选取 具有 最 大 相似 度 的 种 子 maxsim(di,s;) ,将 d; 归 入 以 ;; 为 聚 类 中 心 的 类 cj, 从 


而 得 到 DD 的 一 个 聚 类 C= {ccp}); 
(5) 重复 步 又 (2)、(3)、(4) 若 干 次 ,以 得 到 较为 稳定 的 聚 类 结果 。 该 方法 的 运行 速度 较 
快 ,但 是 必须 事先 确定 的 取 值 , 且 种 子 选取 的 好 坏 对 聚 类 结果 有 和 较 大 影响 。 


13.2.4 文本 分 类 


文本 分 类 是 一 种 重要 的 文本 挖掘 工作 ,由 于 现在 存在 大 量 的 联机 文本 ,分 类 便于 对 文本 
的 检索 和 分 析 。 

“如 何 进行 自动 文本 分 类 ?” 一 般 的 做 法 如 下 : 首先 ,把 一 组 预先 聚 类 过 的 文本 作为 训练 
集 。 然 后 对 训练 集 进行 分 析 以 便 得 出 各 类 的 分 类 模式 。 这 种 分 类 模式 通常 需要 一 定 的 测试 
过 程 ,不 断 地 细 化 ,用 这 些 导出 的 分 类 模式 对 其 他 联机 文本 加 以 分 类 。 

这 一 处 理 过 程 与 关系 数据 库 的 分 类 相似 ,但 还 是 存在 本 质 的 区 别 。 关 系数 据 库 是 结构 
化 的 : 每 个 元 组 定义 为 一 组 “属性 , 值 " 对 。 文 本 数据 库 则 不 是 结构 化 的 , 它 没有 “属性 , 值 ” 
对 的 结构 。 与 一 组 文本 相关 的 关键 词 并 不 能 用 一 组 属性 或 维 来 刻 化 。 因 此 ,通常 面 对 关 系 
数据 库 的 分 类 方法 ,如 决策 树 分 析 , 并 不 适用 于 对 文本 数据 库 的 分 类 。 

对 文本 分 类 的 有 效 方法 是 基于 关联 的 分 类 , 它 基 于 一 组 关联 的 、 经 常 出 现 的 文本 模式 对 
文本 加 以 分 类 。 基 于 关联 的 分 类 方法 处 理 过 程 如 下 : 

(1) 通过 简单 的 信息 检索 技术 和 关联 分 析 技术 提出 关键 词 和 词组 。 

(2) 使 用 已 经 有 的 词类 ,或 基于 专家 知识 ,或 使 用 某 些 关键 词 分 类 方法 ,生成 关键 词 和 
词组 的 概念 层次 ,或 类 层次 结构 。 

(3) 词 关联 挖掘 方法 用 于 发 现 关联 词 , 它 可 以 最 大 化 区 分 一 类 文本 与 另 一 类 文本 。 这 
导致 了 对 每 一 类 文本 ,有 一 组 关联 规则 。 这 些 分 类 规则 可 以 基于 其 出 现 频率 加 以 排序 ,并 用 
于 对 新 的 文本 的 分 类 。 

基于 关联 的 文本 分 类 方法 已 经 证 明 是 有 效 的 。 对 Web 文本 分 类 ,可 以 利用 Web 页 面 
的 链接 信息 ,帮助 文本 类 的 识别 。 

文本 分 类 是 一 种 典型 的 有 教师 的 机 器 学 习 问 题 ,一 般 分 为 训练 和 分 类 两 个 阶段 ,具体 过 
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程 如 下 : 
1. 训练 阶段 


(1) 定义 类 别 集合 C 二 {oo,… ,ci,…,cm) ,这 些 类 别 可 以 是 层次 式 的 ,也 可 以 是 并 列 
式 的 ; 

(2) 给 出 训练 文本 集合 S= (sw 每 个 训练 文本 s; 被 标 上 所 属 的 类 别 标 
识 ci; 


(3) 统计 S 中 所 有 文本 的 特征 矢量 Vs ) ,确定 代表 C 中 每 个 类 别 的 特征 矢量 VCc;) 。 
2. 分 类 阶段 


(1) 对 于 测试 文本 集合 T= {dj ,… ,di,，…,d,) 中 的 每 个 待 分 类 文本 di ,计算 其 特征 矢 
量 V(d) 与 每 个 V(c;) 之 间 的 相似 度 sim(di ,ci); 
Cy 选取 相似 度 最 大 的 一 个 类 别 max sim(di ci) 作为 cu 的 类 别 。 


有 时 也 可 以 为 dr 指定 多 个 类 别 , 只 要 di 与 这 些 类 别 之 间 的 相似 度 超过 某 个 预定 的 阔 
值 。 如 果 di 与 所 有 类 别 的 相似 度 均 低 于 阔 值 ,那么 通常 将 该 文本 放 在 一 边 ,由 用 户 来 做 最 
终 决 定 。 如 果 这 种 情况 经 常 发 生 , 则 说 明 需 要 修改 预定 义 类 别 ,然后 重新 进行 上 述 训练 与 分 
类 过 程 。 在 计算 sim(di ,ci) 时 ,有 多 种 方法 可 供 选择 。 最 简单 的 方法 是 仅 考虑 两 个 特征 矢 
量 中 所 包含 的 词 条 的 重生 程度 , 即 : 


sim(d ,ci) = n(disc) 


no(di yci) 
其 中 ,nCdisc) 是 V(di) 和 V(c;) 具 有 的 相同 词 条 数目 .ro (di,ci) 是 VC(di) 和 Vlci) 具 有 的 所 
有 词 条 数目 。 最 常用 的 方法 是 考虑 两 个 特征 矢量 之 间 的 夹 角 余 弦 。 


13.3 ”Web 挖掘 


万 维 网 (WWW) 目 前 是 一 个 巨大 的 、 分 布 广泛 的 和 全 球 性 的 信息 服务 中 心 , 它 涉及 新 
闻 广告 .消费 信息 .金融 管理 .教育 ,政府 .电子 商务 和 许多 其 他 信息 服务 。Web 还 包含 
了 丰富 和 动态 的 超 链 接 信息 ,以 及 Web 页 面 的 访问 和 使 用 信息 ,这 为 数据 挖掘 提供 了 丰 
富 的 资源 。 从 广义 上 讲 ，Web 信息 也 是 一 类 特别 的 文本 信息 ,因此 文本 挖掘 的 各 种 技术 
也 适合 于 Web 挖掘 ,但 是 由 于 Web 信息 自身 的 特点 ,对 于 文本 挖掘 和 Web 挖掘 应 该 区 别 
对 待 。 


13.3.1 Web 挖掘 概述 
1. Web 信息 特点 


(1) Web 信息 特别 庞大 
Web 的 数据 量 目前 以 几 百 兆 兆 字 节 为 单位 来 计算 ,而且 仍 然 在 迅速 地 增长 。 许 多 机 构 
和 社团 都 在 把 各 自 大 量 的 可 访问 信息 置 于 网 上 。 
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(2) Web 信息 非常 复杂 

Web 可 以 看 做 一 个 巨大 的 数字 图 书馆 ;然而 ,这 一 图 书馆 中 的 大 量 文 本 并 不 根据 任何 
有 关 排 列 次 序 加 以 组 织 。 它 没有 分 类 索引 ,更 没有 按 标 题 、 作 者 .封面 页 .目录 等 的 索引 。 在 
这 样 一 个 图 书馆 中 搜索 希望 得 到 的 信息 是 极 具 挑战 性 的 。 

(3) Web 信息 是 动态 的 

Web 不 仅 以 极 快 的 速度 增长 ,而且 其 信息 还 在 不 断 地 发 生 着 更 新 。 新 闻 、 股 票 市 场 、 公 
司 广 告 和 Web 服务 中 心 都 在 不 断 地 更 新 着 各 自 的 页 面 。 链 接 信息 和 访问 记录 也 处 在 频繁 
地 更 新 之 中 。 

(4) Web 信息 使 用 者 复杂 

Web 面 对 的 是 一 个 广泛 的 形形色色 的 用 户 群 体 。 目 前 因特网 上 连接 有 约 5000 万 台 工 
作 站 ,其 用 户 群 仍 在 不 断 地 扩展 中 。 各 个 用 户 可 以 有 不 同 的 背景 兴趣 和 使 用 目的 。 

(5) Web 信息 中 的 “垃圾 ”非常 多 

一 个 人 只 是 关心 Web 上 很 小 的 一 部 分 信息 ,Web 所 包含 的 其 余 信息 ,用 户 是 不 感 兴趣 
的 ,而 且 会 淹没 用 户 所 希望 得 到 的 搜索 结果 。 


2. Web 数据 挖掘 的 意义 


Web 挖掘 的 实质 就 是 从 Web 页 面 及 其 链接 和 用 户 对 页 面 的 访问 中 挖掘 出 用 户 感 兴趣 
的 知识 。 通 过 Web 数据 挖掘 ,可 以 从 数 以 亿 计 存 储 大 量 多 种 多 样 信息 的 Web 页 面 及 其 链 
接 和 用 户 对 页 面 的 访问 中 挖掘 出 需要 的 有 用 知识 。 

数据 挖掘 使 得 商家 能 更 好 地 了 解 客户 ,同时 也 使 得 经 济 规 模 达 到 价格 更 低廉 和 选择 更 
多 ,使 一 个 好 企业 更 好 。 例 如 ,在 描述 大 量 客户 意见 的 信息 中 ,通过 数据 挖掘 来 提出 一 个 模 
型 ,该 模型 具备 一 个 通用 的 区 分 客户 抱怨 还 是 赞扬 的 能 力 。 客 户 的 抱怨 可 以 给 公司 一 个 机 
会 ,让 公司 学 到 怎样 改进 策略 以 使 将 来 不 满意 的 客户 越 来 越 少 。 

Web 挖掘 的 数据 来 源 是 网 站 数据 ,这 些 数据 包括 网 页 文本 信息 、 网 页 链接 信息 、 网 站 的 
访问 记录 以 及 其 他 可 收集 的 信息 。 但 是 ,不 同 的 挖掘 目的 ,不 同 的 挖掘 算法 总 是 依靠 不 同 的 
一 种 或 几 种 数据 源 ,例如 Web 日 志 ( 服 务 器 日 志 、 错 误 日 志 、Cookie 日 志 等 ) .在 线 市 场 数 
据 、Web 页 面 ` Web 页 面 超 链接 以 及 包括 用 户 注册 信息 等 数据 源 。 


3. Web 挖掘 分 类 


可 以 将 Web 挖掘 一 般 地 定义 为 : 从 WWW 的 资源 和 行为 中 抽取 感 兴趣 的 .有 用 的 模式 
和 隐 含 的 信息 。 一 般 地 ,Web 挖掘 可 分 为 3 类: Web 内 容 挖掘 (Web content mining)、Web 
结构 挖掘 (Web structure mining) 和 Web 应 用 挖掘 (Web usage mining) 。 

图 13. 2 为 Web 挖掘 的 分 类 图 。 

(1) Web 内 容 挖掘 

内 容 挖掘 是 用 来 提取 文字 图片 或 其 他 组 成 网 页 内 容 成 分 的 信息 和 知识 。 哪 个 站 点 卖 
汽车 ? 哪些 页 面 是 中 文 的 ?哪些 页 面 是 介绍 音乐 的 ,或 是 介绍 新 闻 的 ? 搜索 引擎 .智能 代理 
和 一 些 推荐 引擎 都 使 用 内 容 挖掘 来 帮助 客户 在 浩瀚 的 网 络 空间 中 寻找 所 需 的 内 容 。 

Web 内 容 挖掘 有 两 种 策略 : 吕 页 面 文本 内 容 挖掘 ; 思 对 搜索 引擎 的 查询 结果 进行 进 一 
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Web 挖掘 


web 内容 拉 担 】 【web 结构 把 所 ] 【 web 应 用 手 氟 ] 


| 本 内 容 控 扣 【搜索 结果 控 据 】 【使 用 模式 挖掘 】 【个性 使 用 归 了 ] 


图 13.2 Web 挖掘 分 类 图 


步 的 处 理 , 得 到 更 为 精确 和 有 用 的 信息 。 

(2) Web 结构 挖掘 

结构 挖掘 是 用 来 提取 网 络 的 拓扑 信息 , 即 网 页 之 间 的 链接 信息 。 从 WWW 的 组 织 结构 
和 链接 关系 中 挖掘 知识 。 哪 些 页面 被 其 他 页 面 所 链接 ? 哪些 页 面 指向 了 其 他 页 面 ? 哪些 页 
面 的 集合 构成 了 一 个 独立 的 整体 ? 可 以 对 页 面 进行 排序 ,发现 重要 的 页 面 。 

(3) Web 应 用 (访问 信息 ) 挖 气 

应 用 挖掘 是 用 来 提取 关于 客户 如 何 运用 浏览 器 浏览 和 使 用 页 面 链接 的 信息 。 从 Web 
的 访问 记录 中 抽取 感 兴趣 的 模式 。 客 户 访问 了 哪些 页 面 ? 在 每 一 页 上 待 了 多 长 时 间 ? 下 一 
步 点 击 了 什么 ?在 站 点 中 是 按照 怎样 的 访问 路 线 进入 和 退出 的 ? 

WWW 中 的 每 个 服务 器 都 保留 了 访问 日 志 (Web access log) ,记录 了 关于 用 户 访问 和 
交互 的 信息 。 分 析 这 些 数据 可 以 帮助 理解 用 户 的 行为 ,从 而 改进 站 点 的 结构 ,或 为 用 户 提供 
个 性 化 的 服务 。 

这 方面 的 研究 主要 有 两 个 方向 : 一 般 使 用 模式 的 挖掘 和 个 性 化 使 用 记录 的 追踪 。 一 般 
使 用 模式 的 挖掘 通过 分 析 使 用 记录 来 了 解 用 户 的 使 用 模式 和 倾向 ,以 改进 站 点 的 组 织 结构 ; 
而 个 性 化 使 用 记录 的 追踪 则 倾向 于 分 析 单 个 用 户 的 偏好 ,其 目的 是 根据 不 同 用 户 的 访问 模 
式 ,为 每 个 用 户 提供 定制 的 站 点 。 

(4) 区 别 与 联系 

因特网 是 由 许多 用 链接 联系 起 来 的 网 页 组 成 的 。 每 个 单独 的 页 面 都 由 多 种 成 分 组 成 ， 
例如 文本 、 图 片 及 指向 其 他 页 面 的 链接 等 ;网 络 服务 器 提供 了 对 这 些 成 分 的 访问 权限 。 一 个 
网 页 是 由 一 些 称 为 框架 (frame) 的 结构 组 成 的 。 

进行 结构 挖掘 的 原材料 是 一 套 将 文档 联系 起 来 的 超级 链接 。 内 容 挖掘 的 原材料 由 那些 
存储 于 数 以 百 万 的 文件 中 的 文本 组 成 ,这 些 文件 可 以 让 任何 客户 通过 网 络 浏览 器 来 访问 。 
内 容 挖掘 和 结构 挖掘 都 需要 一 种 相对 的 静态 的 网 络 , 也 就 是 说 ,网 页 和 链接 要 像 静 止 在 某 个 
特定 的 时 刻 。 

对 结构 挖掘 的 理想 的 表达 方式 是 用 图 形 的 方式 (实际 上 是 有 向 图 ,因为 链接 总 是 在 一 个 
方向 上 由 一 个 网 页 指向 另 一 个 ) 。 这 种 理想 的 图 可 以 映射 整个 网 络 中 链接 所 有 文档 的 全 部 
链接 , 像 一 个 索引 ,这 个 理想 化 的 索引 链接 网 络 上 每 个 网 页 中 的 每 一 个 字符 串 .单词 .短语 、 
声音 和 图 像 。 

结构 挖掘 提示 了 哪些 页 面 通过 当前 页 可 以 在 几 步 内 到 达 , 但 并 不 关心 多 少 人 会 实际 用 
到 这 条 通路 。 内 容 挖掘 提示 了 网 页 的 主题 .但 并 不 关心 谁 会 真正 地 阅读 它 。 内 容 控 掘 可 以 
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用 于 找 出 所 有 关于 酒 类 的 网 页 ,而 结构 挖掘 可 以 将 这 些 网 页 组 织 成 零售 站 点 的 聚 类 。 

对 于 葡萄 酒 的 购买 者 和 白酒 的 购买 者 的 区 别 , 就 需要 另 一 种 类 型 的 Web 挖掘 , 即 第 三 
种 称 为 应 用 (访问 信息 ?挖掘 的 Web 挖掘 , 它 主 要 集中 于 挖掘 客户 的 行为 ,特别 是 随 着 时 间 
的 变化 。 有 时 感 兴趣 的 时 间 片 很 得 ,例如 对 于 访问 者 在 一 次 单独 的 会 话 中 在 一 个 站 点 中 的 
访问 路 径 的 分 析 ; 在 其 他 时 候 时 间 片 又 会 比较 长 ,例如 对 于 在 一 个 零售 站 点 长 期 注册 的 购买 
者 的 购买 行为 的 分 析 。 

应 用 (访问 信息 ) 挖 掘 的 理想 的 数据 表现 形式 是 客户 应 用 模式 , 它 记 录 或 描述 了 某 个 单 
独 的 客户 与 网 络 的 交互 情况 ,包括 所 访问 的 站 点 ,访问 的 路 线 , 提 出 的 问题 ,阅读 的 文档 和 购 
买 的 物品 等 。 

结构 挖掘 ,应 用 挖掘 和 内 容 挖掘 都 是 Web 挖掘 的 有 价值 的 应 用 ,它们 完全 都 可 以 被 称 
为 “对 网 络 的 挖掘 ”。 


13.3.2 ”Web 内 容 挖掘 


内 容 控 气 是 从 组 成 WWW 的 网 页 中 提取 信息 的 过 程 。 内 容 挖掘 最 广为人知 的 一 个 应 
用 是 搜索 引擎 。 没 有 它 ,网 络 将 变 得 一 无 是 处 。Web 内 容 控 掘 的 基本 技术 是 文本 挖掘 。 


1. 信息 检索 


网 络 上 有 数 不 清 的 信息 .留言 ,还 有 彻头彻尾 的 垃圾 。 找 到 需要 的 信息 是 一 件 不 太 容易 
的 搜索 工作 ,因为 对 于 大 多 数 的 主题 来 说 ,网 络 只 是 一 个 “ 贫 矿 ”。 如 果 在 网 络 上 的 所 有 文件 
都 被 明确 地 标记 了 关键 词 或 是 可 以 清楚 描述 文章 内 容 的 元 数据 ,客户 就 可 以 向 图 书馆 管理 
员 那 样 使 用 搜索 引擎 。 那 样 搜索 起 来 就 不 需要 那么 复杂 的 算法 ,只 要 简单 地 查询 就 行 了 。 

信息 检索 的 目标 是 找到 用 户 想 要 找 的 ,而 不 理会 其 他 。 这 个 想法 可 以 由 研究 者 从 两 个 
方面 来 判断 该 查询 的 有 效 性 :“ 召 回 (recall)” 和 “精度 (precision)”。“ 精 度 ” 回 答 了 “在 返回 
的 网 页 中 ,正确 的 标题 的 比例 是 多 少 ”" 的 问题 ;* 召 回 " 则 是 回答 “返回 了 多 少 ” 正 确 网 页 的 问 
题 。 这 两 个 目标 在 某 种 程度 上 说 是 矛盾 的 。 一 个 搜索 引擎 针对 任何 一 个 请 求 返回 所 有 的 网 
页 可 以 说 有 了 很 高 的 “召回 ”, 但 是 只 有 很 低 的 “精度 ”; 反 之 ,只 返回 一 个 正确 主题 网 页 的 搜 
索引 擎 可 以 说 有 很 高 的 “精度 ”, 但 “召回 ”很 低 。 

“召回 ”和 “精度 ”哪个 更 重要 ? 那 要 看 查询 的 性 质 。 一 些 问题 可 以 在 查找 到 的 一 个 网 页 
里 轻易 回答 ,有 些 则 要 参照 很 多 网 页 。 

搜索 引擎 努力 地 提高 精度 和 召回 数量 ,这 两 者 都 依靠 于 按 主题 分 类 的 能 力 一 一 这 也 是 
数据 挖掘 中 一 个 十 分 吸引 人 的 挑战 。 


2. 从 纯 文本 中 提取 信息 


内 容 挖掘 的 目的 就 是 从 纯 文 本 中 得 到 有 用 的 信息 , 即 基于 页 面 内 容 相 似 度 进 行 用 户 分 

类 或 聚 类 的 ,通过 用 户 过 去 的 检索 内 容 分 析 完 成 个 性 化 的 建立 。 要 达到 这 样 的 程度 ,就 必须 

真正 地 理解 文本 ,而 这 样 的 程度 还 没有 达到 。 但 是 在 一 个 有 限制 的 范围 内 ,识别 出 一 些 特定 

的 信息 是 可 能 的 。 那 些 追求 信息 提取 的 研究 者 的 一 个 希望 就 是 通过 将 纯 文 本 转化 为 结构 化 

的 数据 ,他 们 能 够 直接 应 用 数据 挖掘 技术 从 而 做 出 预测 。 这 种 从 非 结 构 化 数据 中 创建 结构 
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化 数据 的 过 程 叫做 特征 抽取 。 例 如 ,政府 研究 机 构 希 望 使 用 该 技术 来 扫描 如 “ 泵 设计 ”的 领 
域 中 数量 巨大 的 页 面 ,以 寻找 诸如 泵 的 容量 和 操作 的 压力 ,而 这 一 切 的 目的 是 预测 这 一 地 区 
水 的 流量 。 

特征 抽取 在 网 络 上 的 应 用 是 作为 购物 的 一 个 辅助 工具 。 有 许多 这 样 的 服务 ,这 些 服 务 
是 寻找 电子 商务 的 站 点 并 比较 相同 商品 的 价格 。 这 要 求 它 要 有 识别 出 两 个 站 点 正在 销售 同 
一 商品 (网 站 在 卖 着 某 些 东 西 ) 的 能 力 。 


13.3.3 ”Web 结构 挖掘 


结构 挖掘 可 以 告诉 用 户 一 些 站 点 的 受 欢迎 程度 和 它 同 其 他 站 点 的 距离 (通过 跳 转 次 数 
来 判定 ) 。 深 入 一 步 ,还 可 以 通过 查看 一 个 单独 站 点 的 网 页 的 链接 情况 及 相互 链接 的 情况 来 
学 习 其 内 部 结构 。 

网 络 的 总 体 结构 是 十 分 迷人 的 。 一 个 对 于 网 络 的 分 析 将 提示 出 人 类 分 为 数 个 不 同 的 语 
言 群落 ,并 且 任何 以 某 种 语言 写成 的 页 面 总 是 链接 与 它 相 同 语言 的 页 面 。 

万 维 网 (www) 是 一 个 有 向 图 G=(V,E),V 是 页面 的 集合 ,天 是 页 面 之 间 的 超 链接 集 
合 。 页 面 抽象 为 图 中 的 顶点 ,而 页 面 之 间 的 超 链 接 抽 象 为 图 中 的 有 向 边 。 顶 点 v 的 入 边 表 
示 对 vv 的 引用 ,出 边 表示 v 引用 了 其 他 的 页 面 。 所 以 Web 页 面 之 间 的 超 链接 揭示 了 Web 
结构 。 

每 个 网 页 是 这 个 图 的 一 个 结 点 ,每 个 链接 是 一 条 边 。 之 所 以 说 这 个 图 是 有 向 的 ,是 因为 
存在 由 A 指向 B 的 链接 并 不 等 于 也 存在 B 指向 A 的 对 应 链接 。 一 个 站 点 A, 它 的 每 一 个 
网 页 都 包含 了 一 个 指向 主页 的 链接 。 大 部 分 的 链接 都 是 站 内 的 ,也 可 以 指向 站 外 的 网 页 。 


1. 网 页 的 引用 


在 “不 是 出 版 ,就 是 毁灭 ”的 学 术 世 界 里 ,引用 一 直 是 保持 成 绩 的 一 个 方法 。 仅 仅 是 出 版 
过 文章 是 不 够 的 ,重要 的 是 其 他 人 的 确 读 过 它们 并 且 觉 得 它们 有 用 。 一 篇 文章 的 有 用 与 否 
在 于 这 篇 文章 出 现在 其 他 文章 的 参考 书目 中 的 次 数 。 特 别 是 作者 ,会 因为 其 作品 的 重复 引 
用 而 在 某 个 学 科 领 域 出 名 。 

原则 上 讲 , 网 络 这 种 全 球 性 结构 也 以 同样 的 方式 使 网 站 保持 成 绩 。 通 向 这 个 站 点 链接 
越 多 , 它 就 一 定 越 重 要 。 实 际 上 对 于 站 点 管理 者 来 讲 , 得 到 一 个 关于 所 有 链接 的 准确 视图 是 
非常 困难 的 ,因为 网 络 的 结构 绝 不 是 静态 的 。 被 各 大 搜索 站 点 用 于 建立 索引 的 “网 络 疏 行 
者 "(Web crawler) 是 最 易 得 到 这 种 信息 的 来 源 。 

网 页 引用 的 Page-rank 方法 是 Brin 和 Page 于 1998 年 提出 的 一 种 方法 。 假 设 要 搜索 某 
一 给 定 话题 的 Web 页 面 ,例如 金融 投资 方面 的 页 面 。 这 时 除了 希望 得 到 与 之 相关 的 Web 
页 面 外 ,还 希望 所 检索 到 的 页 面具 有 较 高 质量 和 权威 性 。 权 威 性 (authority) 可 由 Web 页 面 
链接 来 反映 。Web 不 仅 由 页 面 组 成 ,而 且 还 包含 了 从 一 个 页 面 指向 另 一 个 页 面 的 超 链接 。 
超 链接 包含 了 大 量 人 类 潜在 的 语义 , 它 有 助 于 自动 分 析出 权威 性 语义 。 当 一 个 Web 页 面 的 
作者 建立 指向 另 一 个 页 面 的 指针 时 ,可 以 看 做 是 作者 对 另 一 页 面 的 注解 。 把 对 一 个 页 面 的 
来 自 不 同 作者 的 注解 收集 起 来 ,就 可 以 用 来 反映 该 页 面 的 重要 性 ,并 可 以 很 自然 地 用 于 
Web 页 面 权 威 性 的 发 现 。 可 见 , 大 量 的 Web 链接 信息 提供 了 丰富 的 关于 Web 内 容 相关 性 、 
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质量 和 结构 方面 的 信息 ,这 对 Web 挖掘 是 可 以 利用 的 一 个 重要 资源 。 

Page-rank 的 基本 思想 是 : 

(1) 一 个 页 面 被 多 次 引用 , 则 这 个 页 面 很 可 能 是 重要 的 ; 

(2) 一 个 页 面 尽管 没有 被 多 次 引用 ,但 被 一 个 重要 页 面 引用 , 则 这 个 页 面 很 可 能 是 重 
要 的 ; 

(3) 一 个 页 面 的 重要 性 被 均 分 并 被 传递 到 它 所 引用 的 页 面 。 


2. 中 枢 和 权威 


要 在 庞大 的 满足 条 件 的 文档 中 找到 最 有 趣 的 或 最 权威 的 文档 是 非常 困难 的 。 

康 奈 尔 大 学 的 Jon Kleinberg 提出 了 一 种 被 广泛 采用 的 技术 来 解决 这 个 问题 。 他 的 想 
法 是 利用 这 样 的 事实 : 在 建立 从 一 个 站 点 到 另 一 个 站 点 的 链接 时 ,网 站 的 管理 者 将 会 对 将 
要 建立 链接 的 网 站 的 价值 做 一 个 判断 。 每 个 到 站 点 的 链接 对 这 个 站 点 都 是 有 意义 的 。 久 而 
久之 ,那些 决定 给 同一 目标 站 点 提供 链接 的 站 点 能 够 证 实 目 标的 权威 性 。 进 一 步 ,所 要 链接 
的 站 点 的 可 靠 性 也 可 以 通过 它们 链接 到 的 站 点 的 权威 性 来 判断 。 一 个 拥有 许多 其 他 好 站 点 
推荐 的 站 点 的 推荐 可 以 用 来 决定 另 一 个 站 点 的 权威 性 。 

Kleinberg 提出 一 个 链接 到 许多 权威 站 点 的 站 点 叫做 中 枢 (hub) ;被 许多 中 枢 链接 的 站 
点 叫做 权威 (authority) 。 这 两 个 概念 放 在 一 起 可 以 辨别 出 权威 和 大 众 化 站 点 (如 Yahoo) 之 
间 的 区 别 。 一 种 寻找 权威 的 结构 化 的 方法 就 是 ,用 其 他 的 站 点 到 该 站 点 的 链接 数 来 将 它们 
分 级 。 要 给 站 点 分 级 ,不 要 用 指向 它们 的 链接 的 总 数 ,而 是 用 指向 它们 标题 相关 的 中 枢 的 数 
量 来 分 级 。 

结构 挖掘 是 为 提取 信息 而 对 网 站 的 链接 进行 分 析 的 过 程 ,对 单一 网 站 局 部 结构 的 分 析 ， 
对 于 理解 此 网 站 的 创办 的 目的 和 设计 很 有 帮助 。 对 全 局 结构 的 分 析 是 一 种 将 一 个 网 站 分 解 
成 多 个 紧密 联系 的 子 网 站 的 途径 。 运 用 全 局 结构 挖掘 ,有 可 能 把 网 页 归 类 为 中 枢 ( 到 许多 其 
他 网 页 的 很 好 的 跳板 网 页 ) 和 权威 (许多 网 页 设计 师 都 觉得 值得 链接 到 的 网 页 ) 。 


3. 导航 页 


导航 页 的 存在 主要 为 了 链接 其 他 页 面 。 客 户 不 必 在 导航 页 上 花费 太 多 的 时 间 ,而 他 们 
却 会 频繁 地 转 到 这 个 页 面 上 。 对 客户 来 说 ,导航 页 使 他 们 能 够 很 容易 地 找到 他 们 想 要 找 的 
网 页 。 通 过 比较 从 入 口 到 目标 网 页 所 要 求 的 点 击 数 和 浏览 者 平均 的 点 击 数 ,就 会 得 到 一 些 
关于 怎样 设计 好 的 网 络 站 点 和 怎样 链接 网 页 的 建议 。 


4. 目标 页 


浏览 者 通常 花费 大 量 的 时 间 在 目标 页 上 。 这 一 网 页 实际 上 给 浏览 者 提供 所 要 查找 的 信 
息 、 娱 乐 和 商品 一 一 简 而 言 之 ,目标 页 给 浏览 者 提供 所 有 的 内 容 。 
目标 页 一 般 是 固定 的 。 当 浏览 者 在 一 个 目标 页 上 花费 了 大 量 的 时 间 时 ,我 们 希望 这 是 
因为 他 们 找到 了 他 们 所 需要 的 东西 。 当 然 ,并 不 是 所 有 的 浏览 者 都 是 这 样 的 。 或 许 他 们 有 
许多 的 疑惑 ,或 者 要 求 查 到 更 多 的 东西 ,要 么 由 于 其 他 的 原因 使 他 们 的 输入 速度 非常 慢 , 从 
而 导致 了 他 们 在 此 网 页 上 花费 了 大 量 的 时 间 。 通 常 仔细 分 析 登 录 数 据 ,就 可 以 得 出 他 们 的 
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不 同 之 处 。 要 指出 的 重要 的 一 点 是 : 如 果 没 有 应 用 数据 的 配合 ,一 个 网 站 的 静态 结构 是 没 
有 太 大 用 处 的 。 应 用 数据 允许 我 们 比较 这 个 网 站 的 结构 ,因为 它 反映 了 设计 者 的 思想 ,也 就 
是 说 反映 的 是 这 个 网 站 及 其 实际 的 行为 数据 该 如 何 使 用 。 


13.3.4 Web 应 用 (访问 信息 ) 挖 掘 


在 Web 应 用 挖掘 中 ,考虑 的 是 对 客户 的 理解 ,这 时 客户 应 用 模式 就 是 非常 关键 的 。 客 
户 应 用 模式 可 以 从 多 个 层次 检测 和 挖掘 到 , 即 从 单个 客户 在 一 次 对 话 中 的 一 系列 的 单 击 到 
跨越 了 几 个 月 或 数 年 的 客户 群 的 购买 中 获取 应 用 模式 。 

应 用 挖掘 有 很 多 应 用 ,从 提高 网 站 的 设计 到 改善 客户 关系 的 管理 。 随 着 人 们 需求 的 不 
断 增长 ,所 要 求 的 数据 资源 也 更 加 丰富 多 变 。 


1. Web 应 用 挖掘 的 意义 


Web 应 用 挖掘 的 意义 可 以 概括 为 如 下 几 点 。 

(1) 改进 Web 站 点 的 效率 。 通 过 对 用 户 访问 信息 的 挖掘 ,得 到 大 多 数 用 户 的 访问 习 
惯 \ 爱 好 和 其 他 有 用 信息 ,利用 这 些 信息 可 以 指导 网 站 提供 商 改 进 站 点 结构 和 布局 ,吸引 更 
多 用 户 。 

(2) 实现 个 性 化 服务 。 随 着 互联 网 的 普及 和 电子 商务 的 发 展 ,电子 商务 系统 在 为 用 户 
提供 越 来 越 多 选择 的 同时 ,其 结构 也 变 得 更 加 复杂 ,用 户 经 常会 迷失 在 大 量 的 商品 信息 空间 
中 ,无 法 顺利 找到 自己 需要 的 商品 。 在 日 趋 激烈 的 竞争 环境 下 ,个 性 化 服务 是 包括 电子 商务 
在 内 的 网 站 提供 商 争 取 更 多 用 户 、 防 止 用 户 流失 以 及 实现 市 场 目 标的 重要 手段 。 

(3) 商业 知识 的 发 现 。 从 过 去 的 访问 信息 特性 的 挖掘 ,发 现 新 的 商业 知识 ,用 于 指导 改 
进 服务 和 扩展 新 的 赢利 点 。 通 过 结合 日 志 数 据 和 市 场 数据 可 以 和 CRM 管理 结合 ,在 诸如 : 
顾客 吸引 (Customer Attraction) ,顾客 保留 (Customer Retention) 、 跨 区 销售 (Cross Sales)、 
顾客 离开 (Customer Departure) 等 市 场 活 动 中 ,利用 商业 知识 找到 相应 的 最 佳 对 策 。 

(4) 发 现 导航 模式 。 用 户 的 导航 模式 是 指 群体 用 户 对 Web 站 点 内 的 页 面 的 浏览 顺序 
模式 。 在 电子 商务 环境 下 发 现 商 业 知 识 的 关键 是 发 现 用 户 的 导航 模式 。 这 种 导航 模式 也 是 
个 性 化 推销 的 基础 。 

(5) 抽取 访问 信息 特性 。 通 过 对 客户 端 ,服务 器 端 ,代理 服务 器 端 等 不 同 用 户 访 问 信息 
的 挖掘 ,可 以 得 到 关于 用 户 交 互 情况 和 导航 情况 的 详细 的 信息 。 在 此 基础 上 可 以 提出 模型 ， 
用 于 预测 在 一 个 给 定 站 点 上 一 个 用 户 所 访问 的 页 面 的 概率 分 布 。 访 问 信息 的 特性 可 以 被 用 
于 在 Web 服务 器 上 开展 伸缩 性 和 负载 均衡 的 研究 等 方面 。 


2. Web 应 用 挖掘 中 的 技术 


Web 应 用 挖掘 中 的 常用 技术 有 如 下 几 种 。 
(1) 路 径 分 析 。 路 径 分 析 最 常见 的 应 用 是 用 于 判定 在 一 个 Web 站 点 中 最 频繁 访问 的 
路 径 , 这 样 的 知识 对 于 一 个 电子 商务 网 站 或 者 信息 安全 评估 而 言 是 非常 重要 的 。 
(2) 关联 规则 发 现 。 使 用 关联 规则 发 现 方法 可 以 从 Web 访问 事务 集中 ,找到 一 般 性 的 
关联 知识 。 
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(3) 序列 模式 发 现 。 在 时 间 惟 有 序 的 事务 集中 ,序列 模式 的 发 现 就 是 指 找到 那些 如 “一 
些 项 跟随 另 一 个 项 "这样 的 内 部 事务 模式 。 

(4) 分 类 。 发 现 分 类 规则 可 以 给 出 识别 一 个 特殊 群体 的 公共 属性 的 描述 。 

(5) 聚 类 。 可 以 从 Web Usage 数据 中 聚集 出 具有 相似 特性 的 那些 客户 。 


3. Web 访问 日 志 挖 掘 


Web 应 用 挖掘 中 ,有 一 种 是 对 Web 访问 日 志 (Web Log) 进 行 分 析 和 挖掘 ,Web 访问 日 
志 挖 掘 的 基本 流程 包括 如 下 步 又 : 

(1) 首先 要 对 Web Log 进行 清洗 、 过 滤 和 转换 ,从 中 抽取 感 兴趣 的 数据 。 

(2) 将 资源 的 类 型 .资源 的 大 小 .请 求 的 时 间 ,在 资源 上 停留 的 时 间 .请 求 者 域名 .用户 、 
服务 器 状态 作为 多 维 数据 立方 体 (Data Cube) 的 维 变量 ,将 对 页 面 和 文件 请 求 次 数 等 分 别 作 
为 在 这 些 维 变量 下 的 度量 变量 建立 多 维 数据 立方 体 (Data Cube) 。 

通过 对 数据 立方 体 的 切 块 .切片 分 析 可 以 回答 : 哪些 成 分 或 特色 被 经 常 或 偶尔 使 用 ,网 
络 流量 随时 间 的 变化 规律 (按时 .日 .月 等 ) ,用户 在 不 同 Internet 域 的 分 布 情况 ,来 自 不 同 地 
区 的 用 户 在 存 取 方式 上 是 否 有 差异 。 

(3) 利用 成 熟 的 数据 挖掘 技术 (如 特征 提取 、 分 类 关联、 预测 .时 间 序 列 分 析 、 趋 势 分 
析 ) 进 行 Web 流量 分 析 、 典 型 的 事件 序列 和 用 户 行为 模式 分 析 等 ,可 以 回答 什么 是 典型 的 事 
件 序列 ;用 户 的 行为 模式 是 什么 ;不同 用 户 群 在 使 用 和 行为 上 有 什么 差异 ;用 户 的 行为 是 否 
随时 间 变 化 ,怎么 变化 等 问题 。 

通过 分 析 Web 访问 日 志 能 帮助 理解 用 户 的 行为 和 Web 结构 ,因此 ,可 以 改进 Web 页 
面 的 设计 和 Web 应 用 程序 ,发 现 潜 在 的 电子 商务 客户 。 

Web Log 分 析 还 有 助 于 建立 针对 个 体 的 个 性 化 Web 服务 。 由 于 Web Log 数据 提供 了 
用 户 访 问 Web 页 面 的 信息 ,因此 Web Log 信息 可 以 与 Web 内 容 挖掘 和 Web 结构 挖掘 集成 
起 来 ,用 于 Web 页 面 的 等 级 划分 .Web 文本 的 分 类 和 多 层次 Web 信息 库 的 构造 。 


4. 应 用 挖掘 的 作用 


通常 在 访问 网 站 时 ,页 面 访问 的 顺序 非常 重要 ,以 至 于 要 把 这 个 顺序 作为 一 个 整体 来 研 
究 。 当 关联 规则 应 用 到 这 个 序列 时 ,就 可 以 得 到 这 次 业务 的 顺序 规则 一 一 比如 先 到 主页 ,再 
到 找 工作 列表 ,然后 到 联系 方式 。 

这 样 的 页 面 访 问 可 以 依照 不 同情 况 分 为 不 同 的 类 。 这 些 类 代表 了 不 同 的 客户 ,比如 老 
客户 和 新 客户 ,浏览 的 客户 和 想 购 物 的 客户 。 不 同 的 访问 者 访问 同一 个 网 站 的 目的 是 不 一 
样 的 。 比 如 ,访问 一 个 零售 商 网 站 的 人 的 目的 可 能 是 购物 或 寻找 就 业 机 会 。 

Web 应 用 挖掘 的 好 处 主要 有 : 

(1) 利用 Web 应 用 挖掘 可 以 实现 用 户 建 模 ; 

(2) 利用 Web 应 用 挖掘 发 现 导航 模式 ,从 而 改进 Web 站 点 的 结构 设计 ,实行 个 性 化 
推销 ; 

(3) 利用 Web 应 用 挖掘 改进 访问 效率 ,改进 服务 器 性 能 ; 

(4) 利用 Web 应 用 挖掘 还 可 以 进行 个 性 化 服务 ; 
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(5) 利用 Web 应 用 挖掘 进行 商业 知识 的 发 现 ; 
(6) 利用 Web 应 用 挖掘 进行 用 户 移动 模式 的 发 现 。 


13.3.5 Web 日 志 分 析 与 实例 
1. Web 日 志 数 据 概述 


Web 访问 日 志 数 据 具 有 如 下 基本 特征 : 

(1) 动态 变化 性 : 随 着 时 间 的 推移 ,访问 信息 连续 不 断 产生 并 记录 在 日 志文 件 中 ,因此 
数据 集合 具有 较 强 的 动态 特征 。 

(2) 数据 量 大 : 由 于 访问 记录 实时 更 新 ,从 时 间 跨 度 上 趋 于 无 限 性 ,因此 占用 的 数据 总 
量 是 非常 可 观 的 ,在 综合 网 站 中 更 是 如 此 ,每 天 的 访问 用 户 总 量 以 及 同时 在 线 的 用 户 量 均 是 
非常 巨大 的 ,产生 的 日 志文 件 约 有 上 百 兆 ,访问 次 数 达 几 十 万 甚至 上 百 万 。 

(3) 多 维 性 : Web 访问 日 志 包 含 多 个 方面 信息 ,如 用 户 的 IP 地 址 .访问 内 容 、 访 问 方 
式 、 传 输 字 节 数 .访问 时 间 等 ,尽管 不 同 格式 日 志文 件 记录 的 内 容 不 尽 相 同 ,但 是 数据 均 具 有 
多 维 性 。 

(4) 结构 化 程度 较 高 : 数据 均 按 照 确定 的 数据 格式 自动 进行 记录 ,并 可 按照 一 定 规则 
进行 相互 转换 ,易于 转换 为 关系 数据 库存 储 形式 进行 结构 化 处 理 。 

(5) 包含 大 量 琐碎 数据 : 日 志 中 大 量 因为 网 页 下 载 而 自动 产生 并 记录 后 级 为 JPEG、 
GIF SWF 等 媒体 文件 信息 以 及 CSS 等 样式 文件 ,这 些 记 录 是 与 数据 分 析 无 关 的 。 

由 于 用 户 访问 网 站 而 产生 的 http 请 求 , 这 种 动态 环境 中 产生 的 信息 即 构成 了 连续 不 断 
的 流 式 数据 。 这 些 数据 信息 存储 在 Web 服务 器 访问 日 志 中 ,其 中 记录 了 访问 时 间 .访问 客 
户 端的 IP 地 址 .请求 的 URI 地 址 ,协议 类 型 .传输 字 节 数 等 内 容 。 

Web 日 志 的 记录 格式 包括 如 下 常用 字段 : 

J@ 每 次 访问 者 的 客户 端 机 器 IP 地 址 。 

@ 用 户 访问 日 期 和 时 间 ,精确 到 秒 。 

@ 用 户 访问 的 网 页 名 称 。 

@ 用 户 的 本 次 访问 请 求 是 否 成 功 的 状态 。 

@ 传输 文件 的 字 节 大 小 。 

@ 引导 用 户 访问 到 本 站 点 的 前 驱 URL。 

@ 访问 者 使 用 的 浏览 器 版 本 和 操作 系统 版 本 。 

在 Web 日 志 分 析 中 ,把 握 动态 变化 趋势 很 重要 ,其 内 在 规律 有 用 知识 可 能 是 稍 纵 即 逝 
的 ,如 用 户 访问 趋势 .访问 热点 变化 .异常 访问 模式 等 。 

热点 访问 的 动态 变化 趋势 ,如 连续 查询 几 个 版 块 半 个 小 时 内 的 访问 总 量 , 可 以 实时 跟踪 
访问 量 最 大 的 主题 。 同 时 这 种 热点 可 能 随 着 时 间 的 推移 可 能 会 转 到 另外 一 个 主题 ,因此 通 
过 连续 查询 可 发 现 主题 的 变化 情况 .可 进一步 分 析 产 生变 化 的 原因 。 

异常 访问 模式 ,是 依据 静态 数据 分 析 得 到 的 先 验 知识 ,如 用 户 的 访问 模式 ,访问 频率 范 
围 等 信息 ,连续 查询 某 些 版 块 或 者 地 区 的 访问 总 量 ,可 实时 跟踪 超出 常规 范围 的 聚集 单元 ， 
因此 可 以 及 时 发 现 异 常 访问 ,进而 可 以 聚焦 到 该 部 分 数据 单元 ,进行 下 钻 获取 细 粒度 单元 上 
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的 异常 情况 。 
流 式 数据 多 维 查询 与 挖掘 则 是 实现 Web 日 志 分 析 的 有 效 工 具 。 


2. 面向 Web 日 志 分 析 的 流 式 数据 多 维 模型 


Web 日 志 分 析 主 要 关注 时 间 维 度 .主题 维度 .用户 维度 等 三 个 维度 ,在 实际 应 用 中 可 根 
据 需求 扩展 其 他 分 析 维 度 ,如 访问 状态 .来源 页 面 和 用 户 代理 等 。 

(1) 时 间 维 度 

时 间 维 度 是 流 式 数据 多 维 模 型 的 基础 ,其 中 包含 年 .月 、 日 .时 、 分 、 秒 等 多 个 时 间 粒 度 层 
次 信息 。 传 统 的 分 析 方 法 多 关注 数据 的 长 期 变化 趋势 ,因此 高 层次 时 间 粒 度 更 为 重要 ,如 
年 月 .日 等 ;而 流 式 数 据 多 维 查询 更 多 关注 细 粒 度 的 数据 动态 变化 情况 ,如 时 、 分 、 秒 等 。 

时 间 维 度 遵循 多 层次 时 间 窗 口 模型 约束 ,时 间 粒 度 层次 与 时 间 窗 口 长 度 的 选择 主要 依 
据 实际 应 用 需求 。 如 小 时 层次 对 应 窗口 长 度 为 24 小 时 ,分 钟 层次 对 应 窗口 长 度 为 12 小 时 ， 
秒 钟 层次 对 应 数据 窗口 长 度 为 6 小 时 。 

(2) 主题 维度 

综合 网 站 可 划分 为 滚动 新 闻 、 明 星 新 闻 .影视 新 闻 等 多 个 子 版 块 ,每 个 子 版 块 关注 不 同 
的 新 闻 内 容 , 即 不 同 主题 。 在 具体 实现 过 程 中 可 依据 用 户 访问 的 URI 地址 确定 访问 页 面 及 
关注 主题 ,建立 主题 维度 结构 可 划分 为 三 个 概念 层次 : DALL 层次 ,代表 所 有 主题 的 内 容 ; 
@ 子 版 块 层次 ,代表 不 同 主题 的 内 容 ; @ 页 面 层次 ,代表 每 个 版 块 中 不 同 的 条 目 。 

(3) 用 户 维度 

用 户 维度 属性 取 值 代表 不 同 地 区 的 访问 者 ,其 中 的 维 成 员 对 应 于 Web 访问 日 志 中 的 访 
问 主 机 , 即 访问 客户 端的 IP 地 址 。 按 照 IP 地 址 可 确定 访问 用 户 所 在 的 区 域 ,如 省 ,城市 等 。 
在 建立 用 户 概念 层次 过 程 中 可 采用 适应 性 划分 策略 , 仅 选择 重点 关注 的 地 区 进行 细 粒 度 划 
分 ,而 其 他 的 区 域 则 仅 保 留 粗 粒 度 事实 即 可 ,如 重点 关注 “浙江 地 区 ”用 户 的 访问 情况 ,可 在 
维度 概念 层次 中 建立 城市 级 别 的 细 粒 度 维 成 员 , 而 其 他 地 区 则 仅 维持 省 级 的 维 成 员 。 建 立 
概念 层次 结构 可 包含 四 个 层次 : ALL、 国 家 、 省 ,城市 。 

(4) 度量 属性 

度量 属性 和 聚集 函数 均 与 分 析 目 标 息 息 相 关 , 其 中 常见 度量 属性 包括 : 

Q@ 请 求 数 : Web 访问 日 志 的 每 一 条 记录 对 应 一 次 请 求 , 其 中 包括 页 面 请 求 ,也 包括 图 
片 .Flash 等 资源 请 求 ,所 以 一 般 打 开 一 个 页 面 会 发 送 多 个 请 求 , 根 据 网 页 设计 的 差异 ,请 求 
数 是 页 面 浏览 数 的 几 倍 。 

@ 页 面 浏览 数 : 页 面 被 打开 (请 求 ) 的 次 数 ,是 网 站 分 析 中 最 常见 的 度量 。 在 下 面 的 
Web 日 志 分 析 案 例 中 ,通过 预 处 理 将 非 页 面 访问 的 记录 过 滤 , 仅 保留 对 页 面 文件 的 请 求 记 
录 。 对 页 面 浏览 数 的 聚集 计算 可 用 于 发 现 用 户 的 访问 热点 ,访问 异常 等 。 

@ 传输 数据 量 : 传输 数据 量 可 用 于 统计 网 站 的 流量 ,以 及 衡量 不 同 用 户 以 及 不 同 周期 
内 的 访问 情况 ,需要 将 所 有 请 求 的 传输 字 节 数 相 加 得 到 结果 。 

在 分 析 过 程 中 还 可 以 基于 度量 值 进行 求 和 、 比 例 .平均 等 聚集 计算 获得 不 同 维度 视角 或 
者 数据 粒度 层次 上 的 信息 ,进而 为 深层 次 综合 分 析 与 挖掘 提供 更 丰富 的 信息 支持 。 
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3. Web 日 志 数据 的 多 维 查询 


在 Web 日 志 分 析 中 ,管理 者 或 分 析 者 经 常 需要 获取 某 一 特定 维度 视角 或 数据 粒度 层次 
上 的 聚集 信息 ,这 种 即席 方式 的 多 维 查询 通常 由 用 户 依据 需求 即时 定义 ,一 次 性 执行 并 返回 
查询 结果 。 为 了 支持 快速 查询 计算 , 需 在 主 存 中 维持 预先 计算 的 流 立 方 体 , 用 于 存储 兴趣 视 
图 中 的 数据 单元 。 下 面 以 流 式 数据 三 维 视图 (小 时 ,城市 ,视频 版 块 ) 为 例 ,进行 Web 日 志 多 


维 查 询 。 


切片 ( 切 块 ) 与 钼 取 查 询 是 应 用 广泛 的 多 维 分 析 操 作 , 用 于 获取 选择 不 同 粒 度 层次 上 查 
询 范围 内 满足 条 件 的 数据 单元 ,以 便 发 现 高 峰 访问 时 段 . 重 点 关注 的 视频 版 块 和 主要 用 户 所 


在 城市 或 地 区 的 分 布 。 


侯 东 风 博 士 生 对 Web 日 志 进 行 了 查询 ,举例 如 下 : 
(1) Ql: 对 上 午 6 时 至 12 时 ,查询 每 个 小 时 的 页 面 浏 览 数 ,查询 视图 为 (小 时 , * , * )， 
切 块 查询 条 件 定义 在 时 间 维 度 上 。 
Ql 查询 结果 如 表 13. 2 所 示 ,结果 表明 ,网 站 的 高 峰 访 问 时 间 段 为 上 午 “9 一 10 时 ”, 而 


其 他 时 段 则 相对 较 少 。 
表 13.2 QIl 查询 结果 
时 间 页 面 浏览 数 时 间 页 面 浏览 数 
5 一 7 时 953 9 一 10 时 5122 
7 一 8 时 1080 10 一 11 时 4270 
8 一 9 时 3295 11 一 12 时 1945 


(2) Q2: 对 工作 时 间 7 时 至 12 时 之 间 ,查询 主要 的 子 版 块 的 页 面 浏览 数 , 即 在 上 面 查 
询 的 基础 上 ,下 钼 到 子 版 块 的 查询 。 查 询 视图 为 (小 时 ,* , 子 版 块 ) ,在 时 间 维度 和 主题 维度 


Q2 查询 结果 如 表 13. 3 所 示 ,表明 上 午 工作 时 间 的 访问 多 集中 在 “滚动 新 闻 ”, 而 其 他 版 
块 相 对 较 少 。 
表 13.3 Q2 查询 结果 
时 间 子 版 块 页 面 浏览 数 
7 一 12 时 滚动 新 闻 1945 
7 一 12 时 图 片 新 闻 837 
7 一 12 时 综艺 新 闻 899 
7 一 12 时 明星 新 闻 374 
7 一 12 时 音乐 新 闻 342 
7 一 12 时 人 物 访谈 308 


(3) Q3: 对 晚间 18 时 至 22 时 之 间 ,查询 主 要 省 份 的 页 面 浏览 数 ,如 北京 ,上 海 ,广东 ， 
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湖南 ,江苏 ,浙江 ,辽宁 ,重庆 。 查 询 视 图 为 (小 时 ,省 , * ), 在 时 间 维 度 和 用 户 维度 上 定义 切 
块 查询 。 


省 级 区 域 为 “浙江 ”和 “北京 ”。 
表 13.4 Q3 查询 结果 


时 间 省 份 页 面 浏览 数 
8 一 22 时 北京 5454 
8 一 22 时 上 海 518 
8 一 22 时 广东 1415 
8 一 22 时 湖南 334 
8 一 22 时 江苏 705 
8 一 22 时 浙江 10101 
8 一 22 时 还 宁 261 
8 一 22 时 重庆 165 


若 需 进 一 步 探查 浙江 省 主要 城市 的 访问 者 区 域 分 布 情况 , 则 需 从 用 户 维度 下 钻 到 城市 
层次 进行 计算 , 即 执行 Q4 查询 。 

(4) Q4: 对 浙江 省 主要 城市 ,查询 18 点 至 22 点 之 间 的 页 面 浏览 数 , 如 杭州 市 ,宁波 市 ， 
温州 市 ,绍兴 市 ,嘉兴 市 ,金华 市 。 查 询 视图 为 (小 时 ,城市 ,* ) ,在 时 间 维度 和 用 户 维度 上 定 
义 切 块 查询 。 

查询 结果 如 表 13. 5 所 示 ,结果 表明 网 站 的 访问 者 大 部 分 来 自 于 杭州 市 和 嘉兴 市 ,而 其 
他 城市 较 少 。 


表 13.5 Q4 查询 结果 


时 间 省 份 城 市 页 面 浏 览 数 
8 一 22 时 浙江 杭州 市 3381 
8 一 22 时 浙江 宁波 市 159 
8 一 22 时 浙江 温州 市 120 
8 一 22 时 浙江 绍兴 市 87 
8 一 22 时 浙江 嘉兴 市 1134 
8 一 22 时 浙江 金华 市 33 
从 以 上 Web 日 志 数 据 的 多 维 查询 分 析 可 以 得 出 的 结论 是 : 四 网 站 上 的 页 面 浏 览 的 高 
峰 访 问 时 段 是 上 午 9 一 10 时 。 回 工作 时 间 访 问 最 多 的 是 滚动 新 闻 。 加 晚间 访问 网 站 最 多 的 


省 份 是 浙江 和 北京 ,其 中 浙江 省 内 访问 最 多 的 用 户主 要 在 杭州 市 和 嘉兴 市 。 
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4. 连续 查询 热点 访问 信息 或 异常 现象 


在 瞬息 万 变 的 形势 下 ,数据 的 动态 变化 趋势 对 决策 支持 具有 现实 意义 ,如 发 现 热点 访问 
信息 或 异常 现象 等 。 

分 析 访 问 热点 或 异常 情况 ,可 分 别 定义 连续 查询 要 求 如 下 : 

(1) Q5: 连续 跟踪 最 近 1 小 时 内 的 每 个 版 块 的 页 面 浏览 总 数 变化 趋势 。 查 询 视图 为 
(分 钟 ,* , 子 版 块 ) ,时 间 窗 口 为 60 分 钟 , 查 询 条 件 分 别 对 应 不 同 版 块 ,包括 明星 新 闻 、 滚 动 
新 闻 、 图 片 新 闻 ,影视 新 闻 。 

Q5 连续 的 查询 结果 表明 ,滚动 新 闻 ? 版 块 的 访问 量 较 高 ,在 10 一 24 时 间 段 ,访问 量 相 
对 稳定 在 900 次 左右 。 比 其 他 子 版 块 要 高 出 400 一 600 次 ,并 且 在 上 午 9 时 监测 到 一 个 高 峰 
访问 周期 ,达到 1600 次 , 比 平均 值 高 出 近 一 倍 , 这 是 一 个 异常 情况 。 

(2) Q6: 连续 跟踪 最 近 1 小 对 内 不 同城 市 的 访问 量变 化 情况 ,包括 浙江 省 的 杭州 市 , 嘉 
兴 市 ,丽水 市 。 查 询 视图 为 (分 钟 ,城市 , * ) ,时 间 窗 口 为 60 分 钟 ,查询 条 件 定义 在 用 户 维 度 
上 。 三 城市 不 同时 间 访 问 页 面 次 数 对 比 表 如 表 13.6 所 示 。 


表 13.6 浙江 省 三 城市 不 同时 间 访 问 页 面 次 数 对 比 表 


时 间 杭 州 市 嘉 兴 市 丽 水 市 
02 用 50 150 0 
04 用 30 50 0 
06 用 80 50 0 
08 时 100 180 0 
10 时 210 220 1100 
12 时 100 190 700 
14 时 150 50 800 
16 时 650 80 700 
18 时 100 150 850 
20 时 180 160 920 
22 时 230 30 600 
24 时 100 500 800 


Q6 连续 的 查询 是 针对 杭州 市 .嘉兴 市 和 丽水 市 ,进行 对 比分 析 结 果 表 明 : 

丽水 市 在 8 一 24 时 ,平均 访问 量 有 800 次 ,大 大 高 于 其 他 两 个 城市 (相当 于 4 一 6 倍 ) 。 
杭州 市 平均 访问 量 200 次 ,嘉兴 市 平均 访问 量 120 次 。 

丽水 市 在 上 午 10 时 ,页面 浏 览 数 的 访问 量 达 到 最 高 峰 1100 次 。 杭 州 市 在 下 午 16 时 达 
到 最 高 峰 , 访 问 量 是 700 次 。 嘉 兴 市 在 上 午 9 时 达到 最 高 峰 , 访 问 量 是 400 次 。 但 丽水 市 清 
晨 时 的 访问 量 是 0。 可 见 丽水 市 在 浙江 省 是 一 个 特例 。 

(3) Q7: 连续 跟踪 主要 省 份 对 特定 版 块 的 访问 量变 化 情况 ,查询 视图 为 (分 钟 ,省 ,滚动 
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新 闻 ) ,时 间 窗 口 为 60 分 钟 ,查询 条 件 定义 在 用 户 维度 上 ,用 户 分 别 对 应 浙江 省 .江苏 省 和 上 
海 市 ,主题 维度 的 子 版 块 定 为 “滚动 新 闻 ”。 

Q7 连续 的 查询 结果 ,表明 浙江 省 对 ”滚动 新 闻 ” 版 块 关 注 较 多 ,在 0 一 7 小 时 内 ,平均 访 
问 量 有 30 次 左右 ;在 8 一 24 小 时 内 ,平均 访问 量 有 70 次 左右 。 而 江苏 省 和 上 海 市 关注 较 
少 , 这 两 地 的 访问 量 差 不 多 ,在 0 一 7 小 时 内 ,平均 访问 量 只 有 5 次 左右 ;在 8 一 24 小 时 内 , 平 
均 访 问 量 只 有 15 次 左右 。 

(4) Q8: 连续 跟踪 浙江 省 对 主题 维度 的 不 同 版 块 访问 的 变化 情况 ,包括 滚动 新 闻 ,影视 
新 闻 ,近期 热点 。 查 询 视图 为 (分 钟 ,浙江 省 , 子 版 块 ) ,时 间 窗 口 为 60 分 钟 ,查询 条 件 定义 在 
主题 维度 的 子 版 块 上 。 

Q8 的 查询 结果 显示 了 一 个 有 趣 的 现象 : 

“近期 热点 ”版块 的 页 面 浏览 数 在 工作 时 间 关 注 较 多 ,在 8 一 18 小 时 内 ,平均 访问 量 有 
90 次 左右 。 

“滚动 新 闻 ? 版 块 在 这 时 段 ,平均 访问 量 只 有 60 次 左右 。 但 是 ,滚动 新 闻 ” 版 块 在 休息 
时 间 (18 一 23 时 ) 关 注 较 多 ,平均 访问 量 有 80 次 左右 ,在 第 24 时 达到 了 高 峰 , 访 问 量 达到 
180 次 。 

(5) Q9: 最 近 10 分 钟 ,查询 杭州 市 对 几 个 主要 版 块 访问 的 变化 趋势 ,检查 是 否 有 异常 
现象 。 对 滚动 新 闻 ,明星 新 闻 , 图 片 新 闻 的 查询 视图 为 ( 秒 钟 ,杭州 市 , 子 版 块 ), 时 间 窗 口 长 
度 为 600 秒 钟 。 查 询 条 件 定义 在 主题 维度 上 。 

Q9 的 查询 结果 表明 ,在 短期 内 对 几 个 版 块 的 访问 分 布 都 较 均匀 ,其 中 “滚动 新 闻 ” 在 
10 一 18 时 ,访问 量 在 10 次 左右 , 仅 出 现 较 少 的 峰值 ,但 在 9 点 钟 左 右 ,10 分 钟 内 “ 深 动 新 闻 ” 
的 页 面 浏 览 数 的 访问 量 达 到 了 52 次 ,是 平均 访问 量 的 5 倍 ,这 是 一 个 异常 现象 。 


小 结 : 


从 以 上 多 种 连续 查询 中 ,可 以 概括 为 : 热点 访问 的 时 间 段 .新 闻 版 块 或 用 户 地 区 ,主要 
体现 在 页 面 浏 览 数 的 平均 值 比 其 他 的 高 。 而 异常 现象 表现 在 一 段 时 间 内 的 访问 量 是 平均 访 
问 量 的 数 倍 之 多 。 

通过 “热点 访问 "和 “异常 现象 "的 分 析 , 为 网 站 的 页 面 的 进一步 开发 ,提供 了 有 效 的 决策 
支持 。 


习 题 13 


. 文本 挖掘 的 概念 是 什么 ? 

. 文本 挖掘 与 数据 挖掘 有 什么 不 同 ? 

. 文本 挖掘 的 主要 任务 是 什么 ? 

文本 特征 包含 什么 内 容 ? 

. 如 何 形式 化 表示 文本 特征 ? 

. 文本 特征 提取 的 基本 算法 过 程 是 什么 ? 
. 说 明文 本 挖掘 的 功能 层次 内 容 。 
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8. 说 明文 本 关联 分 析 的 基本 思想 。 
9. 说 明文 本 的 层次 聚 类 法 和 平面 划分 法 的 基本 思想 与 区 别 。 
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Web 信息 有 什么 特点 ? 

Web 挖掘 与 文本 挖掘 有 什么 区 别 和 联系 ? 

简 述 Web 数据 挖掘 的 意义 。 

说 明 Web 挖掘 的 分 类 及 含义 。 

Web 内 容 控 掘 的 目的 是 什么 ? 

“召回 ”与 “精度 ”的 含义 是 什么 ”它们 之 间 的 关系 是 什么 ? 
简 述 Web 结构 挖掘 的 主要 任务 和 目的 。 

什么 是 中 枢 站 点 和 权威 站 点 ? 

Web 应 用 挖掘 的 意义 是 什么 ? 

Web 应 用 挖掘 中 的 常用 技术 有 哪些 ? 

为 什么 对 Web 日 志 的 分 析 采 用 流 式 数据 的 多 维 流 立方 体 模型 ? 
通过 实例 说 明 Web 日 志 数据 的 多 维 切 片 与 钻 取 分 析 ,能 发 现 什么 ? 
在 连续 查询 中 如 何 发 现 “热点 访问 "和 “异常 现象 ”。 
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